主頁 > 後端開發 > 爬取豆瓣Top250圖書資料

爬取豆瓣Top250圖書資料

2023-06-14 08:14:56 後端開發

爬取豆瓣Top250圖書資料

專案的實作步驟
1.專案結構
2.獲取網頁資料
3.提取網頁中的關鍵資訊
4.保存資料
1.專案結構
image

2.獲取網頁資料
對應的網址為https://book.douban.com/top250
image
image

import requests
from bs4 import BeautifulSoup
"""
獲取網頁資料,決議資料,將相應的資料傳出
"""
def get_page(url):
    headers = {
        'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) '
                     'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 '
                     'Mobile Safari/537.36 Edg/114.0.1823.43'
    }
    resp=requests.get(url,headers=headers)
    soup=BeautifulSoup(resp.text,'html.parser')
    return soup

3.提取網頁中的關鍵資訊
獲取傳出的決議后的資料,獲取對應的圖片,書名,作者,價格,評價,簡介

from geturlcocument.get_document import get_page
import re
# 初始資料
pictures=[]
names=[]
authors=[]
prices=[]
scores=[]
sums=[]
def get_single():
    # 網址地址
    urls = [f"https://book.douban.com/top250?start={num}" for num in range(0,250,25)]
    for url in urls:
        # 獲取對應的網頁文本
        text = get_page.get_page(url)
        # 所有資料的集合
        all_tr = text.find_all(name="tr", attrs={"class": "item"})
        # 查找每個單項
        for tr in all_tr:
            # 資料型別:圖片,書名,作者,價格,評分,簡介
            # 圖片
            picture = tr.find(name="img")
            picture = picture.get('src')
            # print(picture)
            # 書名
            div = tr.find(name='div', attrs={'class': 'pl2'})
            name = div.find('a').text
            name = re.sub(r'\s+', '', name)
            # 作者
            author = tr.find(name='p', attrs={'class': 'pl'}).text
            author = author.split('/')[0]
            # 價格
            price = author.split('/')[-1]
            price = re.sub(r'元', '', price)
            # 評分
            score = tr.find(name='span', attrs={'class': 'rating_nums'}).text
            try:
                sum = tr.find(name='span', attrs={'class': 'inq'}).text
            except AttributeError:
                sum = ''
            pictures.append(picture)
            names.append(name)
            authors.append(author)
            prices.append(price)
            scores.append(score)
            sums.append(sum)
    data = https://www.cnblogs.com/prettyspider/archive/2023/06/13/{"picture": pictures,
        "name": names,
        "author": authors,
        "price": prices,
        "score": scores,
        "sum": sums
    }
    return data

將獲取的資料存入到字典中,將資料傳出,使用re庫對相應的資料進行處理,運用例外檢錯
4.保存資料
獲取傳出的字典型別的資料,將資料存入到pandas的DataFrame型別中

from geturlcocument.get_single_docuemnt import get_single
import pandas as pd
# 獲取字典型別的資料
data=https://www.cnblogs.com/prettyspider/archive/2023/06/13/get_single.get_single()
# 用pandas的DataFrame型別存盤資料
df=pd.DataFrame(data)
df.to_csv('./books.csv',encoding='utf-8')
print('ending of data')

該專案完成!!!

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/555070.html

標籤:其他

上一篇:[ARM匯編]計算機原理與數制基礎—1.1.2 二進制與十進制數制轉換

下一篇:返回列表

標籤雲
其他(160903) Python(38226) JavaScript(25493) Java(18235) C(15237) 區塊鏈(8270) C#(7972) AI(7469) 爪哇(7425) MySQL(7248) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5875) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4591) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2435) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1984) 功能(1967) HtmlCss(1964) Web開發(1951) C++(1939) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1881) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • 爬取豆瓣Top250圖書資料

    #爬取豆瓣Top250圖書資料 專案的實作步驟 1.專案結構 2.獲取網頁資料 3.提取網頁中的關鍵資訊 4.保存資料 **1.專案結構** ![image](https://img2023.cnblogs.com/blog/3047082/202306/3047082-20230613170853 ......

    uj5u.com 2023-06-14 08:14:56 more
  • [ARM匯編]計算機原理與數制基礎—1.1.2 二進制與十進制數制轉換

    在計算機中,我們通常使用二進制數制來表示資料,因為計算機的基本電平只有兩種狀態:高電平(通常表示為 1)和低電平(通常表示為 0)。而在我們的日常生活中,我們習慣使用十進制數制。為了方便理解,我們需要掌握二進制與十進制之間的轉換方法。 #### 二進制轉十進制 將二進制數轉換為十進制數時,我們需要將 ......

    uj5u.com 2023-06-14 08:14:48 more
  • Go 語言之 sqlx 庫使用

    # Go 語言之 sqlx 庫使用 ## 一、sqlx 庫安裝與連接 ### sqlx 介紹 sqlx is a library which provides a set of extensions on go's standard `database/sql` library. The sqlx ......

    uj5u.com 2023-06-14 08:14:39 more
  • 【python基礎】復雜資料型別-字典(嵌套)

    有時候,需要將一系列字典存盤在串列中,或將串列作為值存盤在字典中,這稱為**嵌套**。我們可以在串列中嵌套字典、在字典中嵌套串列、在字典中嵌套字典。 # 1.串列嵌套字典 我們可以把一個人的資訊放在字典中,但是多個人的資訊我們無法放在同一個字典中,所以就需要字典串列。 其語法格式: [字典1,字典2 ......

    uj5u.com 2023-06-14 08:09:16 more
  • 搭建springbootweb環境

    #搭建springboot環境(idea環境) 實作步驟: 1.基礎環境配置 2.maven配置 3.撰寫第一個程式helloworld(可能有兩個小問題) 4.運行(jar包運行,命令列運行) 一.基礎環境配置 進入idea,點擊file->new->project,在彈出的頁面上,選擇sprin ......

    uj5u.com 2023-06-14 07:58:44 more
  • 每天一道面試題:Spring的Bean生命周期

    Spring的Bean生命周期包括以下步驟: 1、實體化(Instantiation):當Spring容器接收到創建Bean的請求時,它會先實體化Bean物件。這個程序可以通過建構式、工廠方法或者反序列化等方式完成; 2、屬性賦值(Populate Properties):在實體化Bean物件后, ......

    uj5u.com 2023-06-14 07:53:30 more
  • Axure RP教程_編程入門自學教程_菜鳥教程-免費教程分享

    ## 教程簡介 Axure RP是一款專業的快速原型設計工具。Axure(發音:Ack-sure),代表美國Axure公司;RP則是Rapid Prototyping(快速原型)的縮寫。 Axure RP是美國Axure Software Solution公司旗艦產品,是一個專業的快速原型設計工具, ......

    uj5u.com 2023-06-14 07:53:25 more
  • celery筆記三之task和task的呼叫

    > 本文首發于公眾號:Hunter后端 > 原文鏈接:[celery筆記三之task和task的呼叫](https://mp.weixin.qq.com/s/AIobDZVDWV3r_XauvmkVKA) 這一篇筆記介紹 task 和 task 的呼叫。 以下是本篇筆記目錄: 1. 基礎的 task ......

    uj5u.com 2023-06-14 07:52:40 more
  • 爬取豆瓣Top250圖書資料

    #爬取豆瓣Top250圖書資料 專案的實作步驟 1.專案結構 2.獲取網頁資料 3.提取網頁中的關鍵資訊 4.保存資料 **1.專案結構** ![image](https://img2023.cnblogs.com/blog/3047082/202306/3047082-20230613170853 ......

    uj5u.com 2023-06-14 07:52:29 more
  • 【python基礎】復雜資料型別-字典(嵌套)

    有時候,需要將一系列字典存盤在串列中,或將串列作為值存盤在字典中,這稱為**嵌套**。我們可以在串列中嵌套字典、在字典中嵌套串列、在字典中嵌套字典。 # 1.串列嵌套字典 我們可以把一個人的資訊放在字典中,但是多個人的資訊我們無法放在同一個字典中,所以就需要字典串列。 其語法格式: [字典1,字典2 ......

    uj5u.com 2023-06-14 07:52:13 more