需求:爬取豆瓣電影短評評論文本內容
目標:將爬取的文本存入 excel 中
爬蟲步驟:
1.拼接分頁網址,回圈請求分頁資料,獲取HTML代碼
2.分析獲取到的HTML代碼,決議出所需要的資料,提取內容
3.存盤爬取到的資料
準備作業:
1.開發工具 pycharm
2.模塊 requests、bs4或 pyquery
爬蟲實際流程:
第一步:我們從豆瓣電影中選取一部電影(https://movie.douban.com/subject/35766491/),進入短評串列頁面(https://movie.douban.com/subject/35766491/comments?status=P)
第二步:打開 f12開發者工具,我去取評論文本部分,查看網頁結構,
目標評論文本部分對應的 class 類名為 comment,評論串列對應的類名為 comment-item
使用 pyquery 決議獲取串列資料,代碼如下:
form pyquery import PyQuery as pq
doc = pq(html)
comment_list = doc(‘.comment-item’).items()
For item in comment_list:
comment = item(‘.comment’).text()
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/547235.html
標籤:Python