主頁 > 後端開發 > 【經典爬蟲案例】用Python爬取微博熱搜榜!

【經典爬蟲案例】用Python爬取微博熱搜榜!

2023-07-12 07:44:04 後端開發

目錄
  • 一、爬取目標
  • 二、撰寫爬蟲代碼
    • 2.1 前戲
    • 2.2 獲取cookie
    • 2.3 請求頁面
    • 2.4 決議頁面
    • 2.5 轉換熱搜類別
    • 2.6 保存結果
    • 2.7 查看結果資料
  • 三、獲取完整原始碼

一、爬取目標

您好,我是@馬哥python說,一名10年程式猿,

本次爬取的目標是: 微博熱搜榜
?微博熱搜榜頁面

分別爬取每條熱搜的:

熱搜標題、熱搜排名、熱搜類別、熱度、鏈接地址,

下面,對頁面進行分析,

經過分析,此頁面沒有XHR鏈接通過,也就是說,沒有采用AJAX異步技術,

所以,只能針對原頁面進行爬取,

二、撰寫爬蟲代碼

2.1 前戲

首先,匯入需要用到的庫:

import pandas as pd  # 存入excel資料
import requests  # 向頁面發送請求
from bs4 import BeautifulSoup as BS  # 決議頁面

定義一個爬取目標地址:

# 目標地址
url = 'https://s.weibo.com/top/summary?cate=realtimehot'

定義一個請求頭:

# 請求頭
header = {
	'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36',
	'Host': 's.weibo.com',
	'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
	'Accept-Language': 'zh-CN,zh-Hans;q=0.9',
	'Accept-Encoding': 'gzip, deflate, br',
	# 定期更換Cookie
	'Cookie': '換成自己的Cookie值'
}

其中,Cookie需要換成自己的Cookie值,

2.2 獲取cookie

怎么查看自己的Cookie?

Chrome瀏覽器,按F12打開開發者模式,按照以下步驟操作:
?開發者模式下,查看cookie

  1. 選擇網路:Network
  2. 選擇所有網路:All
  3. 選擇目標鏈接地址
  4. 選擇頭:Headers
  5. 選擇請求頭:Request Headers
  6. 查看cookie值

2.3 請求頁面

下面,向頁面發送請求:

r = requests.get(url, headers=header)  # 發送請求

2.4 決議頁面

接下來,決議回傳的頁面:

soup = BS(r.text, 'html.parser')
?```
![](https://img2023.cnblogs.com/blog/2864563/202307/2864563-20230711213330436-846402627.png)

根據頁面分析,每條熱搜都放在了標簽為section的、class值為list的資料里,里面每條熱搜,又是一個a標簽,

所以,根據這個邏輯,決議頁面,以獲取鏈接地址為例:
```python
items = soup.find('section', {'class': 'list'})
for li in items.find_all('li'):
	# 鏈接地址
	href = https://www.cnblogs.com/mashukui/p/li.find('a').get('href')
	href_list.append('https://s.weibo.com' + href)

頁面其他元素,熱搜標題、排名、熱度、類別等獲取代碼,不再一一贅述,

2.5 轉換熱搜類別

其中,熱搜類別這個元素需要注意,在頁面上是一個個圖示,背后對應的是class值,是個英文字串,需要轉換成對應的中文含義,定義以下函式進行轉換:

def trans_icon(v_str):
	"""轉換熱搜類別"""
	if v_str == 'icon_new':
		return '新'
	elif v_str == 'icon_hot':
		return '熱'
	elif v_str == 'icon_boil':
		return '沸'
	elif v_str == 'icon_recommend':
		return '商'
	else:
		return '未知'

目前的轉換函式包括了"新"、"熱"、"沸"、"商"等類別,

我記得,微博熱搜類別,是有個"爆"的,就是熱度最高的那種,突然躥升的最熱的熱點,爆炸性的,但是現在沒有爆炸性新聞,所以我看不到"爆"背后的class值是什么,

后續如果有爆炸性熱點,可以按照代碼的邏輯,加到這個轉換函式里來,

2.6 保存結果

依然采用我最順手的to_excel方式,存入爬取的資料:

df = pd.DataFrame(  # 拼裝爬取到的資料為DataFrame
		{
			'熱搜標題': text_list,
			'熱搜排名': order_list,
			'熱搜類別': type_list,
			'熱度': view_count_list,
			'鏈接地址': href_list
		}
	)
df.to_excel('微博熱搜榜.xlsx', index=False)  # 保存結果資料

至此,整個爬取程序完畢,

2.7 查看結果資料

查看一下,保存到excel里的資料:
?結果資料

其中,第一條是置頂熱搜,所以一共是 (1+50=51) 條資料,

演示視頻:https://www.zhihu.com/zvideo/1488901467788070912
?

三、獲取完整原始碼

get完整代碼:【最新爬蟲案例】用Python爬取微博熱搜榜!


我是@馬哥python說,持續分享python原始碼干貨中!

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/557003.html

標籤:Python

上一篇:【調制解調】DSB 雙邊帶調幅

下一篇:返回列表

標籤雲
其他(162371) Python(38274) JavaScript(25530) Java(18294) C(15239) 區塊鏈(8275) C#(7972) AI(7469) 爪哇(7425) MySQL(7294) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5876) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4615) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2438) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) HtmlCss(1995) .NET技术(1986) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1882) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • 【經典爬蟲案例】用Python爬取微博熱搜榜!

    [toc] # 一、爬取目標 您好,我是[@馬哥python說](https://www.zhihu.com/people/13273183132),一名10年程式猿。 本次爬取的目標是: [微博熱搜榜](https://s.weibo.com/top/summary?cate=realtimeho ......

    uj5u.com 2023-07-12 07:44:04 more
  • 【調制解調】DSB 雙邊帶調幅

    學習數字信號處理演算法時整理的學習筆記。本篇介紹 DSB 雙邊帶調幅信號的調制與解調,內附全套 MATLAB 代碼。 ......

    uj5u.com 2023-07-11 08:21:46 more
  • 為什么使用ioutil.ReadAll 函式需要注意

    # 1. 引言 當我們需要將資料一次性加載到記憶體中,`ioutil.ReadAll` 函式是一個方便的選擇,但是`ioutil.ReadAll` 的使用是需要注意的。 在這篇文章中,我們將首先對`ioutil.ReadAll`函式進行基本介紹,之后會介紹其存在的問題,以及引起該問題的原因,最后給出了 ......

    uj5u.com 2023-07-11 08:21:41 more
  • 為什么使用ioutil.ReadAll 函式需要注意

    # 1. 引言 當我們需要將資料一次性加載到記憶體中,`ioutil.ReadAll` 函式是一個方便的選擇,但是`ioutil.ReadAll` 的使用是需要注意的。 在這篇文章中,我們將首先對`ioutil.ReadAll`函式進行基本介紹,之后會介紹其存在的問題,以及引起該問題的原因,最后給出了 ......

    uj5u.com 2023-07-11 08:20:28 more
  • Rust 使用egui創建一個簡單的下載器demo

    倉庫連接: https://github.com/GaN601/egui-demo-download-util 這是我第一個rust gui demo, 學習rust有挺長時間了, 但是一直沒有落實到實踐中, 本著對桌面應用的興趣, 考察了slint、egui兩種框架, 最后還是選擇了egui. 這 ......

    uj5u.com 2023-07-11 07:48:40 more
  • python筆記:第六章函式&方法

    # 1.系統函式 由系統提供,直接拿來用或是匯入模塊后使用 ``` a = 1.12386 result = round(a,2) print(result) > 1.12 ``` # 2.自定義函式 * 函式是結構化編程的核心 * 使用關鍵詞`def`來定義函式 ``` #函式定義 def fun ......

    uj5u.com 2023-07-11 07:48:37 more
  • == 與 equals 的區別?

    一. 介紹: Java中的 "==" 是一個運算子,是用于比較兩個物件地址值或基本資料型別之間的值是否相等。它的來源可以追溯到C語言,以及受C語言影響的許多其他編程語言。 Java中的equals() 是一個方法,可重寫該方法用于比較兩個物件屬性內容是否相等的方法。該方法繼承自Object類,在Ja ......

    uj5u.com 2023-07-11 07:48:32 more
  • Java 包、訪問修飾符

    # Java 包、訪問修飾符 # 1. 包 ## 包可以理解為創建不同的目錄來分別存放類,類似計算機當中檔案夾 > ## 通過包可以讓相同的類在不同的目錄下使用,防止重名的問題 > > ## 通過包可以很好的管理我們撰寫的類 > > ## 通過包可以控制訪問范圍 ## 使用 idea 工具創建包通過 ......

    uj5u.com 2023-07-11 07:48:27 more
  • Java入門11(JDBC)

    ## JDBC 驅動加載 => 連接創建 => 創建編譯 / 預編譯陳述句 => 獲取結果集 => 遍歷結果集 => 回傳結果集 | 介面 | | | | | | Driver | 驅動 | | Connection | 連接 | | Statement | 操作 | | ResultSet | 結果 ......

    uj5u.com 2023-07-11 07:46:29 more
  • C++類模板實作工廠模式(優化if else/switch case)

    引自:https://blog.csdn.net/weixin_43795921/article/details/127224633 template <typename IdentifierType, class AbstractProduct, class ProductCreator = Ab ......

    uj5u.com 2023-07-11 07:46:24 more