今天開始探討正式內容的第一講了,開始講百度蜘蛛。今天針對廣泛流傳的百度蜘蛛IP類型做一下探討。咱們知道,知識零散的點,經驗是點的連線。所以大家在學習的時候養成大局觀,比如說,我們現在在這個位置。
關于碼迷:
7年SEOer,摩天樓內容助手作者,專注SEO算法研究,QQ2027725943,歡迎志同道合的盆友加我交流。
探索方法
碼迷通過對7個網站的爬蟲日志做追蹤,將百度蜘蛛分為收錄蜘蛛、首頁收錄蜘蛛、快照蜘蛛三大類。
碼迷用控制變量法,通過現象看規律,通過規律看本質,通過本質講對策。
通過線上實驗來一步一步做驗證推導過程。
百度蜘蛛類型有哪幾種
下圖是網上廣泛流傳的百度蜘蛛IP類型說明,其中123開頭的認為是降權蜘蛛,220開頭的一般認為是權重蜘蛛。
下圖是某站長工具提供的蜘蛛日志分析工具,也是將百度蜘蛛分為高低權重之分。
到底有木有降權蜘蛛
看了百度站長的平臺的回復(年代比較久遠),百度官方回復是“沒有”。
http://bbs.zhanzhang.baidu.com/thread-6387-1-1.html
碼迷也認為蜘蛛沒有權重高低之分
為什么分降權蜘蛛、權重蜘蛛之說?
如果蜘蛛有權重高低之說,難道百度一開始就知道你的網站質量嗎,碼迷覺得一臉懵X,百度蜘蛛你真NN的可以,都能預測未來了。
百度蜘蛛分類的猜想
百度爬蟲是干什么的,就是把你的網站頁面內容扒下來,然后把數據拆分為標題、摘要、頭圖、正文等結構化數據,放到百度的數據庫里面,提供給用戶搜索。
但是網頁數量以百億計,每個頁面都有快照備份是不現實的。
碼迷大膽猜想,百度蜘蛛應該有功能之分,并未高低權重之說。碼迷(網站www.699tw.com)把百度蜘蛛的爬蟲日志存放到數據庫里面,進行分析追蹤??吹搅藥讉€現象,我們再總結規律,探討本質。
現象1:內頁爬取規律
新上的某個網頁的爬取記錄,我們可以看到,通常都是123開頭的蜘蛛先行,然后220開頭的蜘蛛后行。
然后隔1-2天,快照必會有更新。比如2019年7月27號220開頭蜘蛛訪問之后,7月28日快照就更新了。
現象2 首頁爬取規律
看下圖,mamioo首頁的百度爬蟲日志,19年6月26上線后,基本上也是123開頭的爬蟲先行,220爬蟲后行,隔天快照更新。
現象3 頁面404后的百度爬取規律
碼迷人為實驗了2個404頁面,123開頭的爬蟲爬取后,一般是2次404之后,不再派爬蟲來爬了。
現象4 劣質頁面爬取規律
碼迷也試驗了隨機段落混合而成的內容(比如下圖妹子不錯,但妹子上面的文字很爛),百度123開頭蜘蛛抓了一次就再也不抓了,5月11號上線,至今無快照。

看來百度對隨機拼湊的內容還是有識別的。
現象5 百度站長主動推送后爬取規律
通過站長主動推送接口推送后,一般7天內就有123開頭爬蟲到訪,如果內容質量較好,會有220開頭爬蟲二次到訪,一般3天內必有快照。
現象6 初次提交僅通過百度主動推送更新數據
碼迷有個新站,百度爬蟲一直不來,通過主動提交、sitemap、站長反饋都不來蜘蛛,就直接通過更新數據方式進行提交。
當天提交后,次日220開頭百度爬蟲造訪,但3天內不一定有快照,一般需要2個周左右。
現象7 部分百度蜘蛛只爬首頁
總結一下百度蜘蛛抓取規律,要不大家都凌亂了。
我是干擾:看了很多采集碼迷的文章的,默默詛咒一下吧,碼迷真的非常討厭拿來主義。
規律1
123開頭蜘蛛先行,對網頁做初步分析,以便為后面正式到網頁開展工作做準備。
規律2
220開頭蜘蛛一般在123蜘蛛造訪后,再次造訪。
規律3
如果網頁不過關, 220開頭蜘蛛不會造訪。
規律4
更新頁面是220開頭直接來造訪。
如果大家還是拐不過彎來,碼迷把某單頁站點的123,220蜘蛛每日訪問次數做成柱狀圖。
請看下圖,藍色是123開頭的蜘蛛,橘色是220開頭的蜘蛛。
可以說不管是高質量頁面還是低質量頁面都有123,220開頭的蜘蛛來,還經常成對出現。
好啦,你們是不是明白過來了
結論1:123開頭IP是收錄蜘蛛
所謂收錄蜘蛛是指,百度爬蟲造訪后,百度后端會通過一系列判定手段,如反作弊處理、原創度檢測等等,決定是否能夠可以收錄,是否可以牽引百度快照的蜘蛛到訪。
無快照的頁面(不收錄,無索引)
結論2:220開頭的是快照蜘蛛
當快收錄蜘蛛檢測網頁通過了收錄標準之后,通過快照蜘蛛生成結構化數據,進入倒排索引。這個時候的網頁才有快照,才能被用戶搜索到。
結論3:每次快照更新前,收錄蜘蛛、快照蜘蛛均有造訪
結論4:收錄蜘蛛與快照蜘蛛訪問比率
一般不超過2:1, 如果收錄蜘蛛出現次數遠遠大于快照蜘蛛,說明網頁內容不過關。
結論5 沒有什么所謂的提權蜘蛛之說
所謂的高權重蜘蛛是當網頁達到快照的收錄標準后才會來訪問的,不是通過外鏈直接來的哦。
SEO策略延伸
碼迷一直倡導科學的SEO,但是現在絕大部分SEO從業人員只知道每天去寫內容,然后就等著內容收錄,等著排名。
有些人總提出這樣的問題:為什么我的網站一直沒收錄?為什么有收錄了卻沒有排名?
我們已經知道可以不用通過“site”命令,通過百度爬蟲日志,就可以獲取網站的收錄情況。
所以說,網站爬蟲分析系統非常重要!
一個好的網站爬蟲分析系統有如下幾個功能點:
功能1 整個網站的抓取頻率趨勢
可以簡單了解網站在百度眼中的質量。抓取頻率越高,說明百度越喜歡。如果抓取頻率一直走低,就要關注近期的內容質量是否變差了。如果頻率大幅度降低,查看是不是網址有報錯。
功能2 查看收錄蜘蛛與蜘蛛比率
只有快照蜘蛛訪問過的頁面才是有效收錄,才能獲取百度排名。所以如果很多頁面光有收錄蜘蛛(123開頭的),而快照蜘蛛(220開頭)較少,內容一定有問題。查一下內容質量(摩天樓內容助手可以有效解決這一痛點)、內容廣告之類是否觸犯了百度算法。
功能3 提取重要排名頁面的抓取規律
一般情況下,百度會對已有的重要排名頁面定期更新快照,123,220開頭的蜘蛛定期輪流到訪。如果重要排名頁面的抓取頻率持續走低,說明排名預計會有所下降,盡早查找原因。
另外重要排名頁面一般爬蟲頻率較大,是重要的新內容發現入口,所有如果有相關的新內容,可以在該頁面布局,以達到秒收的效果。
如果有編程經驗的同學,可以按照以上碼迷的想法打造自己的爬蟲分析系統。
今天就講到這里,下一節碼迷將對“百度爬蟲抓取頻率以及優化策略 ”展開探討,歡迎大家關注。
轉載許可
今天就這些,下一節我們開撕百度內部基本流程。微信公眾號優質評論前10名將會獲得碼迷整理的66個百度專利,先到先得。
本系列獨家首發于www.699tw.com,同步發布于公眾號”碼迷SEO“,未經允許禁止轉載采集!違者碼迷將訴諸本站法律顧問予以追究相關法律責任!
本文網址: http://www.699tw.com/seojishu/section-3
留言評論