現在網頁爬蟲代碼可謂是滿天飛,特別是python、PHP寫的居多,百度隨便一搜,滿屏都是,不管什么計算機語言撰寫的,性能都不會相關到哪里去,重要的是實作思路,
一、實作思路
1、以前的思路
下面我說說我個人的實作思路:
十多年前,我寫過了一款爬蟲,當時的思路:
1、根據設定的關鍵詞,
2、百度搜索相關關鍵詞并保存,
3、遍歷關鍵詞庫,搜索相關網頁資訊,
4、提取搜索頁面的頁面鏈接,
5、遍歷每頁的網頁鏈接,
6、爬取網頁資料,
7、決議資料、構造標題、關鍵詞、描述、內容,并入庫,
8、部署到服務器上、每天自動更新html頁面,
這里最關鍵的點就是:標題的智能組織、關鍵詞的自動組合、和內容的智能拼接,
當時、在搜索引擎還沒有那么智能的時候,效果相當好!百度收錄率非常高,
2、現在的思路
資料采集部分:
根據設定的最初關鍵詞,從百度搜索引擎搜索相關關鍵詞,遍歷相關關鍵詞庫,爬取百度資料,
構建資料部分:
根據原有的文章標題,分解為多個關鍵詞,作為SEO的關鍵詞,同樣,分解文章內容,取第一段內容的前100個字作為SEO的網頁描述,內容就不變,整理好資料,入庫保存,
文章發布部分:
根據整理好的資料(SEO相關設定),匹配相關頁面模板,依次生成文章內容頁、文章串列頁面、網站首頁,部署到服務器上,每天自動更新設定數量的文章,
二、相關流程
1.抓取資料流程
1、設定關鍵詞,
2、根據設定關鍵詞搜索相關關鍵詞,
3、遍歷關鍵詞,百度搜索結果,獲取前10頁頁面,
4、根據頁碼鏈接、獲取前10頁(大概前100條資料,后面的排名已經很后了,沒多大意義)
5、獲取每頁的網頁鏈接集合,
6、根據鏈接獲取網頁資訊(標題、作者、時間、內容、原文鏈接),
2.資料生成流程
1、初始化表(關鍵詞、鏈接、內容、html資料、發布統計),
2、根據基礎關鍵詞抓取相關關鍵詞,并入庫,
3、抓取鏈接,入庫,
4、抓取網頁內容、入庫,
5、構建html內容,入庫,
3.頁面發布流程
1、從html資料表中從早到晚獲取資料,
2、創建內容詳細頁,
3、創建內容串列頁面,
4、創建首頁,
4.相關資料表
1、關鍵詞表
2、URL表
3、網頁內容表
4、html資料表
5、發布記錄表
5.專案的結構目錄
專案是用.net5寫的,可以在windows服務、linux服務跑,分三部分,
1、類別庫專案
2、資料采集專案
3、生成頁面專案
6.運行效果截圖
1、內頁生成效果
2、串列頁生成效果
3、首頁生成效果
最后
由于篇幅比較長,涉及到很多細節方面,例如:網頁關鍵詞、描述如何智能重組,相關文章如何智能自動歸類等等、代碼我就不貼了,需要代碼的加我vixin:xiaoqiu20121212,注明:爬蟲代碼,注意:該工具只限于學習使用!!!
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/295618.html
標籤:其他
上一篇:基于SSM的寵物商城系統