主頁 > 後端開發 > Python采集網站VIP檔案,實作圖片文字識別,并保存word格式!

Python采集網站VIP檔案,實作圖片文字識別,并保存word格式!

2023-07-12 08:07:13 後端開發


哈嘍兄弟們

我們平常需要下載檔案的時候,是不是發現,要么不能下載,要么不能復制,就能難受,

常見的檔案網站很多,但是這里就不一一說名字了,emmm

那么我們今天來分享一下,如何用Python將這些不給下載的檔案給批量下載下來,

你需要準備

開發環境

python 3.8
pycharm

 

模塊使用

兩個需要安裝的第三方模塊,安裝命令也寫出來了,

requests --> pip install requests
re
base64
docx --> pip install python-docx

 

本文實作思路

一、資料來源分析

  1. 明確需求
    明確采集網址以及資料內容是什么?
    網址: https://www.docin.com/p-3282300896.html
    資料: 檔案內容
  2. 抓包分析, 我們需要資料內容是可以請求那個鏈接能夠得到
    檔案形式: 圖片樣式
    通過瀏覽器自帶工具: 開發者工具抓包
    打開開發者工具: F12 / 右鍵點擊檢查選擇network
    重繪網頁
    開發者工具搜索: docinpic
    檔案圖片資料
    鏈接: http://221.122.117.73/docinpic.jsp
    sid: P1ekRarOT5ID*deCCfQPHapgA9Z5X3NNn0xfBxPIDApUnSY9yIVtfuxey1BsO1BG <獲取>
    file: 檔案ID <可以自己獲取>
    width: 圖片解析度
    pageno: 頁碼 <可以用for回圈>

二、代碼實作步驟

  1. 發送請求, 模擬瀏覽器對于 檔案頁面url地址 發送請求
    請求鏈接: https://www.docin.com/p-3282300896.html
  2. 獲取資料, 獲取服務器回傳回應資料
  3. 決議資料, 提取我們需要的內容:
    sid引數 / 檔案頁數 / 檔案名稱
    構建檔案圖片鏈接
  4. 保存資料, 把檔案圖片內容保存下來

通過文字識別, 把圖片里面文字識別出來, 保存檔案里面就可以了

會使用百度云API介面:
1. 注冊登陸百度云API
2. 選擇文字識別, 創建應用, 領取免費資源, 點擊技術檔案
3. 先獲取token值
4. API呼叫的檔案代碼

代碼展示

文字識別

doc = Document()
 
 
def Content(content):
    url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=xxxx&client_secret=xxxx"
    payload = ""
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    response = requests.request("POST", url, headers=headers, data=https://www.cnblogs.com/hahaa/archive/2023/07/11/payload)
    access_token = response.json()['access_token']

    request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic"
    # 二進制方式打開圖片檔案
    # 完整原始碼和視頻講解都打包好
    # 放在這個Q裙了:708525271 
    # f = open('img\\1 計算機概述1.jpg', 'rb')
    img = base64.b64encode(content)
    params = {"image":img}
    request_url = request_url + "?access_token=" + access_token
    headers = {'content-type': 'application/x-www-form-urlencoded'}
    json_data = requests.post(request_url, data=https://www.cnblogs.com/hahaa/archive/2023/07/11/params, headers=headers).json()
    words_result = '\n'.join([i['words'] for i in json_data['words_result']])
    print(words_result)

 

發送請求

# 模擬瀏覽器 --> 字典資料型別 --> 鍵:值
headers = {
    # User-Agent 用戶代理 表示瀏覽器基本身份資訊
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
# 請求鏈接
url = 'https://www.docin.com/p-3282300896.html'
# 發送請求
response = requests.get(url=url, headers=headers)

 

獲取資料、決議資料

# 獲取網頁資料
html_data =https://www.cnblogs.com/hahaa/archive/2023/07/11/ response.text
# 提取sid引數
sid = re.findall('flash_param_hzq:"(.*?)",', html_data)[0]
# 提取名字
name = re.findall('productName:"(.*?)",', html_data)[0]
# 提取頁碼
num = re.findall('<em>(\d+)</em>頁</span>', html_data)[0]
# 構建完整圖片鏈接
content_list = []
for page in range(1, int(num)+1):
    # 字串格式化方法
    img = f'http://221.122.117.73/docinpic.jsp?sid={sid}&file=3282300896&width=942&pageno={page}'

 

保存資料, 把檔案圖片內容保存下來

# 發送請求, 獲取二進制資料<圖片內容>
img_content = requests.get(url=img, headers=headers).content
words = Content(img_content)
doc.add_paragraph(words)

 

完整代碼+視頻步驟詳解全部都打包好了,文末名片自己拿哦!

好了,今天的分享就到這結束了,下次見!

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/557013.html

標籤:其他

上一篇:介面和抽象類的區別是什么?

下一篇:返回列表

標籤雲
其他(162381) Python(38274) JavaScript(25530) Java(18294) C(15239) 區塊鏈(8275) C#(7972) AI(7469) 爪哇(7425) MySQL(7294) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5876) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4615) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2438) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) HtmlCss(1995) .NET技术(1986) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1882) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Python采集網站VIP檔案,實作圖片文字識別,并保存word格式!

    哈嘍兄弟們 我們平常需要下載檔案的時候,是不是發現,要么不能下載,要么不能復制,就能難受。 常見的檔案網站很多,但是這里就不一一說名字了,emmm 那么我們今天來分享一下,如何用Python將這些不給下載的檔案給批量下載下來。 你需要準備 開發環境 python 3.8 pycharm 模塊使用 兩 ......

    uj5u.com 2023-07-12 08:07:13 more
  • 介面和抽象類的區別是什么?

    一. 介紹 1. 介面 Interface 介面可以稱之為一種規范,在Java中被用來定義一組方法,而不提供具體的實作細節,它規定了一個類應該要實作哪些方法;其他類可以通過實作介面來達到代碼重用和多型性的目的,幫助我們構建可擴展、靈活和可復用的代碼。 介面使用步驟: - 定義介面:使用關鍵字inte ......

    uj5u.com 2023-07-12 08:07:08 more
  • Java學習筆記

    # Java學習記錄 > 旨在記錄學習程序,學會解決問題 > > 細節決定成敗 ## Java基礎 ### 通過終端輸入的漢字列印出來為==?==的問題解決 ```java import java.util.Scanner; public class InputData { public stati ......

    uj5u.com 2023-07-12 08:01:56 more
  • 根據模板動態生成word(三)使用poi-tl生成word

    poi-tl是一個基于Apache POI的Word模板引擎,也是一個免費開源的Java類別庫。同型別的FreeMarker或Velocity基于文本模板和資料生成新的html頁面或組態檔。而poi tl是一個基于Word模板和資料生成新檔案的Word模板引擎。Word模板具有豐富的樣式。Poi-t... ......

    uj5u.com 2023-07-12 07:54:32 more
  • 淺析synchronized鎖升級的原理與實作

    # 背景 在多執行緒編程中,執行緒同步是一個關鍵的概念,它確保了多個執行緒對共享資源的安全訪問。Java中的synchronized關鍵字是一種常用的執行緒同步機制,它不僅提供了互斥訪問的功能,還具備鎖升級的特性。本文將深入探討synchronized的鎖升級原理和實作方式。 在jdk1.5(包含)版本之前 ......

    uj5u.com 2023-07-12 07:54:25 more
  • Maven專案中使用Mybatis框架

    一 .準備一個空的Maven專案。 二. 配置pom檔案,引入相關依賴。 <!--版本建議換成提示的更安全的版本--> <!-- mybatis插件 --> <dependency> <groupId>org.mybatis</groupId> <artifactId>mybatis</artifa ......

    uj5u.com 2023-07-12 07:54:15 more
  • [滲透測驗]—4.2 Web應用安全漏洞

    在本節中,我們將學習OWASP(開放網路應用安全專案)發布的十大Web應用安全漏洞。OWASP十大安全漏洞是對Web應用安全風險進行評估的標準,幫助開發者和安全工程師了解并防范常見的安全威脅。 ### 1. A1 - 注入(Injection) **概念**:注入漏洞發生在應用程式將不可信的資料作為 ......

    uj5u.com 2023-07-12 07:54:06 more
  • 跨越HTTP無狀態邊界:Cookie與Session在Django中的實戰應用

    **本文深入探索了Django中的Cookie和Session,決議了如何應對HTTP協議的無狀態性問題,說明其基礎概念,分析作業原理,并討論何時應選擇使用Cookie或Session。文章進階部分,提出高效管理Cookie和Session,以及如何利用它們進行用戶身份驗證。** ## HTTP協議 ......

    uj5u.com 2023-07-12 07:54:00 more
  • RequestContextHolder跨執行緒獲取不到requests請求物件的解決方

    # 一、前言 最近在做一個專案,有個比較耗時的操作是啟用執行緒進行異步操作,當時在啟用的執行緒時,突然發現子執行緒無法獲取父執行緒中的HttpServletRequest請求物件,因為是第一次遇到這種問題,所以記錄一下解決方案。 # 二、問題模擬 在這里,我們簡單模擬一下出現的問題。我們首先撰寫一個簡單的h ......

    uj5u.com 2023-07-12 07:53:50 more
  • 仿冒社交APP如何竊取資訊后展開勒索詐騙

    ## 起因 最近某論壇有個小伙伴求助,說自己安裝了一款 APP 后,自己的通訊錄、短信、相冊都被竊取了,進而要挾他轉賬匯款。 大概情況如下: 首先是在某社交 APP 群組中加他,好友通過后的聊天如下: ![file](https://img2023.cnblogs.com/other/606533/ ......

    uj5u.com 2023-07-12 07:51:16 more