現在網頁爬蟲代碼可謂是滿天飛，特別是python、PHP寫的居多，百度隨便一搜，滿屏都是，不管什么計算機語言撰寫的，性能都不會相關到哪里去，重要的是實作思路，

一、實作思路

1、以前的思路

下面我說說我個人的實作思路：
十多年前，我寫過了一款爬蟲，當時的思路：
1、根據設定的關鍵詞，
2、百度搜索相關關鍵詞并保存，
3、遍歷關鍵詞庫，搜索相關網頁資訊，
4、提取搜索頁面的頁面鏈接，
5、遍歷每頁的網頁鏈接，
6、爬取網頁資料，
7、決議資料、構造標題、關鍵詞、描述、內容，并入庫，
8、部署到服務器上、每天自動更新html頁面，

這里最關鍵的點就是：標題的智能組織、關鍵詞的自動組合、和內容的智能拼接，
當時、在搜索引擎還沒有那么智能的時候，效果相當好！百度收錄率非常高，

2、現在的思路

資料采集部分：

根據設定的最初關鍵詞，從百度搜索引擎搜索相關關鍵詞，遍歷相關關鍵詞庫，爬取百度資料，

構建資料部分：

根據原有的文章標題，分解為多個關鍵詞，作為SEO的關鍵詞，同樣，分解文章內容，取第一段內容的前100個字作為SEO的網頁描述，內容就不變，整理好資料，入庫保存，

文章發布部分：

根據整理好的資料（SEO相關設定），匹配相關頁面模板，依次生成文章內容頁、文章串列頁面、網站首頁，部署到服務器上，每天自動更新設定數量的文章，

二、相關流程

1.抓取資料流程

1、設定關鍵詞，
2、根據設定關鍵詞搜索相關關鍵詞，
3、遍歷關鍵詞，百度搜索結果，獲取前10頁頁面，
4、根據頁碼鏈接、獲取前10頁（大概前100條資料，后面的排名已經很后了，沒多大意義）
5、獲取每頁的網頁鏈接集合，
6、根據鏈接獲取網頁資訊（標題、作者、時間、內容、原文鏈接），
在這里插入圖片描述