主頁 > 後端開發 > 【爬蟲案例】用Python爬取百度熱搜榜資料!

【爬蟲案例】用Python爬取百度熱搜榜資料!

2023-07-12 08:08:16 後端開發

目錄
  • 一、爬取目標
  • 二、撰寫爬蟲代碼
  • 三、同步視頻講解
  • 四、完整原始碼

一、爬取目標

您好,我是@馬哥python說,一名10年程式猿,

本次爬取的目標是:百度熱搜榜
百度熱搜榜頁面

分別爬取每條熱搜的:

熱搜標題、熱搜排名、熱搜指數、描述、鏈接地址,

下面,對頁面進行分析,
經過分析,此頁面有XHR鏈接,可以針對介面進行爬取,

打開Chrome瀏覽器,按F12進入開發者模式,依次點擊:

  1. 點擊Network,選擇網路
  2. 點擊XHR,選擇XHR請求
  3. 選擇目標鏈接地址
  4. 擊Preview,選擇預覽
  5. 查看回傳資料

操作程序,如下圖所示:
開發者模式

二、撰寫爬蟲代碼

首先,匯入需要用到的庫:

import requests  # 發送請求
import pandas as pd  # 存入excel資料

定義一個百度熱搜榜介面地址:

# 百度熱搜榜地址
url = 'https://top.baidu.com/api/board?platform=wise&tab=realtime'

構造一個請求頭,偽裝爬蟲:

# 構造請求頭
header = {
	'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36',
	'Host': 'top.baidu.com',
	'Accept': 'application/json, text/plain, */*',
	'Accept-Language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
	'Accept-Encoding': 'gzip, deflate, br',
	'Referer': 'https://top.baidu.com/board?tab=novel',
}

向百度頁面發送requests請求:

# 發送請求
r = requests.get(url, header)

回傳的資料是json格式的,直接用r.json()接收:

# 用json格式接收請求資料
json_data = https://www.cnblogs.com/mashukui/archive/2023/07/11/r.json()

這里,需要注意的是,頁面上有2種熱搜:

百度熱搜榜最上面一條是置頂熱搜,下面從1到30是普通熱搜,介面回傳的資料也是區分開的:

所以,爬蟲代碼需要分開處理邏輯:

置頂熱搜:

# 爬取置頂熱搜
top_content_list = json_data['data']['cards'][0]['topContent']

普通熱搜:

# 爬取普通熱搜
content_list = json_data['data']['cards'][0]['content']

然后再分別進行json決議,對應的欄位(標題、排名、熱搜指數、描述、鏈接地址),
最后,保存結果資料到excel即可,

df = pd.DataFrame(  # 拼裝爬取到的資料為DataFrame
	{
		'熱搜標題': title_list,
		'熱搜排名': order_list,
		'熱搜指數': score_list,
		'描述': desc_list,
		'鏈接地址': url_list
	}
)
df.to_excel('百度熱搜榜.xlsx', index=False)  # 保存結果資料

最后,查看一下爬取到的資料:
結果資料

一共31條資料(1條置頂熱搜+30條普通熱搜),
每條資料包含:熱搜標題、熱搜排名、熱搜指數、描述、鏈接地址,

三、同步視頻講解

講解視頻:https://www.zhihu.com/zvideo/1490668062617161728

四、完整原始碼

get完整原始碼:【爬蟲案例】用Python爬取百度熱搜榜資料!


我是@馬哥python說,持續分享python原始碼干貨中!

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/557020.html

標籤:其他

上一篇:Java 中的值傳遞和參考傳遞 ?

下一篇:返回列表

標籤雲
其他(162388) Python(38274) JavaScript(25530) Java(18294) C(15239) 區塊鏈(8275) C#(7972) AI(7469) 爪哇(7425) MySQL(7294) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5876) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4615) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2438) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) HtmlCss(1995) .NET技术(1986) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1882) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • 【爬蟲案例】用Python爬取百度熱搜榜資料!

    [toc] # 一、爬取目標 您好,我是[@馬哥python說](https://www.zhihu.com/people/13273183132),一名10年程式猿。 本次爬取的目標是:[百度熱搜榜](https://top.baidu.com/board?tab=realtime) ![百度熱搜 ......

    uj5u.com 2023-07-12 08:08:16 more
  • Java 中的值傳遞和參考傳遞 ?

    一. 介紹 值傳遞:值傳遞(Pass-by-Value)當我們向方法傳遞引數時,實際上是將該引數的值進行拷貝,并將拷貝后的值傳遞給方法內部。在方法內部對引數進行修改不會影響原始變數的值。 參考傳遞:參考傳遞(Pass by reference)是指方法呼叫時實參(即傳入方法的引數)是一個物件的參考, ......

    uj5u.com 2023-07-12 08:08:06 more
  • 2022藍橋杯B組(java)版

    # 2022藍橋杯b組 ## A題 ![img](https://img-blog.csdnimg.cn/4ac63a09fe784d7a94b710fc0cc48d09.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50, ......

    uj5u.com 2023-07-12 08:08:01 more
  • 紅包分配問題

    紅包分配問題 給你一個整數表示紅包的總額,和另一個整數表示紅包的個數 表示我們要把總金額,隨機分成N個紅包。 要求1:每個紅包的金額都是隨機的 要求2:每個人至少1分錢 示例代碼: 1 public class Test2 { 2 public static void main(String[] a ......

    uj5u.com 2023-07-12 08:07:56 more
  • Docker學習路線2:底層技術

    了解驅動Docker的核心技術將讓您更深入地了解Docker的作業原理,并有助于您更有效地使用該平臺。 ### **Linux容器(LXC)** Linux容器(LXC)是Docker的基礎。 LXC是一種輕量級的虛擬化解決方案,允許多個隔離的Linux系統在單個主機上運行,無需全功能的虛擬化。 L ......

    uj5u.com 2023-07-12 08:07:51 more
  • Java擴展Nginx之三:基礎配置項

    ### 歡迎訪問我的GitHub > 這里分類和匯總了欣宸的全部原創(含配套原始碼):[https://github.com/zq2599/blog_demos](https://github.com/zq2599/blog_demos) ### 本篇概覽 - 經歷了前面兩篇的入門和編譯原始碼之后,從本 ......

    uj5u.com 2023-07-12 08:07:32 more
  • JDBC的增刪改-結果集的元資料-Class反射-JDBC查詢封裝

    # 一、使用JDBC批量添加 ## ? 知識點復習: ?1、JDBC的六大步驟 (匯入jar包, 加載驅動類,獲取連接物件, 獲取sql執行器、執行sql與并回傳結果, 關閉資料庫連接) 2、?封裝了一個DBUtil 類, 通過讀取屬性檔案的方式獲取 基礎連接資訊。 3、?批量添加: 一次性可執行多 ......

    uj5u.com 2023-07-12 08:07:18 more
  • Python采集網站VIP檔案,實作圖片文字識別,并保存word格式!

    哈嘍兄弟們 我們平常需要下載檔案的時候,是不是發現,要么不能下載,要么不能復制,就能難受。 常見的檔案網站很多,但是這里就不一一說名字了,emmm 那么我們今天來分享一下,如何用Python將這些不給下載的檔案給批量下載下來。 你需要準備 開發環境 python 3.8 pycharm 模塊使用 兩 ......

    uj5u.com 2023-07-12 08:07:13 more
  • 介面和抽象類的區別是什么?

    一. 介紹 1. 介面 Interface 介面可以稱之為一種規范,在Java中被用來定義一組方法,而不提供具體的實作細節,它規定了一個類應該要實作哪些方法;其他類可以通過實作介面來達到代碼重用和多型性的目的,幫助我們構建可擴展、靈活和可復用的代碼。 介面使用步驟: - 定義介面:使用關鍵字inte ......

    uj5u.com 2023-07-12 08:07:08 more
  • Java學習筆記

    # Java學習記錄 > 旨在記錄學習程序,學會解決問題 > > 細節決定成敗 ## Java基礎 ### 通過終端輸入的漢字列印出來為==?==的問題解決 ```java import java.util.Scanner; public class InputData { public stati ......

    uj5u.com 2023-07-12 08:01:56 more