Hello,這幾天公司一直忙啊忙,沒有時間更文章了,唉~。對于碼迷對百度蜘蛛的分類,元芳們,這件事你怎么看?
在知乎、搜外問答,還有QQ群里面,很多同學有這樣的問題:
百度爬蟲多久爬一次
百度爬蟲多久收錄
百度爬蟲多久更新
本編,將帶著大家探討百度爬蟲規則頻率相關的問題,我們的推導順序還是通過現象看規律,通過規律看本質,通過本質講對策。來吧,跟著碼迷SEO,讓我們一步一步解開影響百度爬蟲頻次的因子跟有效優化對策吧。
上一篇,碼迷跟大家一塊探討了百度蜘蛛抓取規律以及蜘蛛類型。傳送門:碼迷SEO內參(二):百度蜘蛛類型及蜘蛛抓取規律解密。百度蜘蛛主要由收錄蜘蛛(123IP開頭)、以及快照蜘蛛(220IP開頭)兩種蜘蛛構成,通過這兩種蜘蛛的訪問日志情況,基本上能反映出一個網站在百度眼里是高富帥還是矮窮矬。
先看4組爬蟲數據
碼迷從幾個站里面挑選了比較典型的爬蟲日志數據,記錄了收錄蜘蛛(藍色)、快照蜘蛛(橙色)每天的訪問頻次,生成可視化表格。我們從這里直觀的分析出規律來。
第1組 單站單頁面
這個站只有一個頁面,做單頁SEO,19年4月份上線,用的老域名。
- 爬蟲每日抓取頻次不超過5次
- 上線后,有一波小訪問高峰(寫1的地方),爬取老域名歷史頁面
第2組 優質站持續原創
改站從1月份開始持續寫文章,均為高質量原創內容,前期文章基本無快照,3月中旬左右,忽然釋放大量快照。目前日pv 1000+。
- 百度爬蟲造訪頻率基本是增長趨勢
- 灰色陰影區間為大量內頁忽然被收錄的時間節點,與收錄蜘蛛頻率基本相符
第3組 垃圾站持續更新
淘的老域名,上線后采集文章做垃圾站實驗,每天采集更新文章
- 灰色區域為兩波小訪問高峰,應該是蜘蛛判斷老頁面檢測老頁面訪問是否正常
- 老頁面正常后,百度爬蟲頻率趨于平穩
- 采集更新文章后,吸引了一波收錄蜘蛛訪問高峰(特別高的幾條藍線),頁面比較低劣,沒有快照蜘蛛造訪
- 還是持續更新采集文章,然而爬蟲頻率并未大漲
第4組 MAMIOO.COM改版上線前后
mamioo之前為母嬰站點,收錄1800左右,16年后無剛更新。19年7月改版上線,新增頁面20個左右,之前老頁面均保留。
不同時首頁布局變動,之前為問答列表頁,目前為摩天樓介紹,也就是首頁導出鏈接數變少。
- 改版上線一周左右,有一波蜘蛛訪問小高峰,可以理解為百度能覺出來你改版了
- 改版上線后(綠色箭頭節點),整體蜘蛛訪問呈下降訪問趨勢。也就是之前的老頁面層級更深了,也會影響蜘蛛訪問頻率。
百度爬蟲規律總結
通過以上4組數據我們基本上與我們的經驗總結是相符的
1 網站頁面數越多,并不代表蜘蛛訪問頻率越高
2 網站有快照的頁面數越多,也就是網站質量越好被索引的頁面越多,蜘蛛訪問頻率越高
3 網站鏈接層級越合理,與首頁距離較短的頁面越多,蜘蛛訪問頻率越高
通過百度專利探討本質
百度爬蟲多久爬一次,百度爬蟲多久更新,百度爬蟲爬了之后到底多久收錄,帶著這些問題,碼迷帶你一探百度的相關專利。
百度爬蟲相關專利1:資源平衡性策略
碼迷覺得《201710240516.7資源平衡性的確定方法、裝置、設備以及存儲介質》足以解密以上很多的問題,也很能讓SEOer們回味。
百度對網站的抓取策略很大程度上參考了經濟學里面的基尼系數算法,來有效平衡爬蟲資源分配。
百度專利是這樣說的:
搜索資源是搜索引擎類產品的基石,一條資源(典型的,一個資源站點中更新的一個網頁)從產生到展現給搜索用戶要經歷資源抓取、入庫(也即將資源收錄于資源庫中)、召回(也即資源的分發)、排序、展現等一系列過程。其中資源的抓取、入庫是召回的基礎;請求召回的資源數量的多少是對資源抓取、入庫質量優良的有效指標,也是影響用戶體驗的主要因素。在現有技術中,沒有對資源庫中資源的收錄與分發的平衡性進行衡量的方法。
本發明實施例提供了一種資源平衡性的確定方法、裝置、設備以及存儲介質,通過應用衡量經濟分配的公平程度的目標經濟學參數的計算方法,使用設定時間區間內資源庫針對各個資源站點的資源收錄量以及資源分發量,計算用于衡量所述資源庫的資源收錄及分發的平衡性的資源平衡性參數的技術手段,創造性的給出了一種有效衡量資源庫中資源的收錄與分發平衡性的新方法,使得用戶可以根據計算得到的資源平衡性參數,量化的感知出資源庫中資源的收錄與分發是否平衡,并進而可以根據該資源平衡性參數的計算結果,適應性的調整針對所述資源庫的資源抓取策略。
碼迷大白話:有排名的網頁數量占總網站的比率才是決定爬蟲抓取頻率的重要指標。
百度專利還說:
[0086]
例如,可以設定一個平衡閾值條件為:0.4-0.6,如果計算得到的資源平衡性參數滿足該平衡閾值條件,則可以確定當前的資源抓取策略比較合理,資源的收錄及分發過程比較平衡;如果計算得到的資源平衡性參數不滿足該平衡閾值條件,則可以確定當前的資源抓取策略不太合理,進而可以獲取資源收錄量與資源分發量之間的差值超過設定門限(例如,資源收錄量-資源分發量大于1000,或者資源分發量-資源收錄量大于1000等)的異常資源站點。
[0087]相應的,根據所述異常資源站點的資源收錄量與資源分發量之間的差異類型(資源收錄量大于資源分發量,或者資源分發量大于資源收錄量),對所述異常資源站點的資源抓取策略進行適應性調整(例如:增大或者減小對所述異常資源站點的抓取頻率,和/或抓取深度等)。
碼迷大白話:垃圾內容越發越沒爬蟲來
百度爬蟲相關專利2:爬蟲對IP、域名分配策略
《CN201010600048.8一種網站數據抓取裝置及方法》
本發明提供了一種網站數據抓取裝置及方法,以更合理并且快速的調度抓取網站數據,使得在有限的資源下盡可能地使搜索引擎所抓取的網站數據能夠保持較高的更新水平。
[0005] 具體方案如下 :提供一種網站數據抓取方法,包括 :a. 獲取多條爬蟲日志,以形成日志文件,其中所述每一爬蟲日志包括相互關聯的站點名稱、IP 地址、網站數據以及抓取時間 ;b. 以所述站點名稱為基準將所述日志文件合并到合并日志文件中,在所述合并日志文件中,每一所述站點名稱下關聯有一個或多個在所述爬蟲日志中與所述站點名稱相關聯的IP 地址,每一所述站點名稱下進一步關聯有在所述爬蟲日志中與所述站點名稱相關聯的抓取時間和網站數據 ;c. 以所述 IP 地址為基準對所述合并日志文件進行倒排處理,以獲取倒排日志文件,在所述倒排日志文件中,每一所述 IP 地址下關聯有一個或多個在所述合并日志文件中與所述 IP 地址相關聯的站點名稱,每一所述站點名稱進一步關聯有在所述合并日志文件中與所述站點名稱相關聯的抓取時間和網站數據 ;d. 對所述倒排日志文件中每一所述 IP 地址下的站點名稱進行應用策略計算,以獲取多個以優先級別排列的待抓取站點名稱以及對應的待抓取 IP 地址,形成待抓取列表。
碼迷大白話:同IP網站優先抓取權重高的網站,抓取次數按照服務器性能估算來抓。假如一臺服務器單日最多能1000個IP,里面有8個站,其中權重最高的站每天更新1萬內容,那其他站連爬蟲造訪機會都沒有。
針對百度爬蟲的SEO優化策略
百度專利里面說了,網頁被搜到被點擊的幾率,網站整個網頁數量、IP資源分配都可以影響爬蟲造訪頻率,通過以上百度分析,碼迷總結了一個爬蟲頻率公式如下,暫且叫碼迷爬蟲頻率公式吧
百度爬蟲頻率 = 鏈接發現幾率 * 有效排名頁面占比 * 有效收錄頁面數量 - 同IP其他網站數*其他網站權重
很明顯我們要吸引百度爬蟲蜘蛛,可以通過以下手段
策略1 增加鏈接發現幾率
如果網站外鏈越多,爬蟲發現的幾率也越大。所以很多人問:蜘蛛池有用嗎?
碼迷并沒有找到外鏈與爬蟲之間的關系,但是通過以往的經驗來看,一個網站的有效外鏈越多,越容易獲得百度蜘蛛發現,蜘蛛池只是提高網頁被蜘蛛的爬取幾率,但是碼迷這里還沒有證據證明,蜘蛛池能夠提高有效收錄率。
蜘蛛池是有效的,但是蜘蛛池本質上是一個站群系統,如果蜘蛛池里面內容都是灰色地帶的內容,做合法行業的網站建議盡量保持距離。
策略2 增加有效排名頁面占比 以及 有效收錄頁面數量
新站如何吸引爬蟲?我的網站上線好久了,發了好多內容,為什么沒有收錄?
持續的優質內容輸出,一方面增加百度有效收錄率,另一方面增加搜索曝光率才是最重要的吸引蜘蛛的途徑。
如果你耗費了百度的爬蟲資源就算了,百度即使收錄了你的網頁,但是卻沒有人來搜或者沒有前三頁的排名。百度如果覺得你的網站辣么多內容木有人用,這跟狼來了的故事是一個道理。
策略3 將網站遷移到單獨的IP地址
這個不展開說明了
策略4 高級爬蟲吸引手段
做某些行業的老師都會搭配蜘蛛池來增加鏈接發現的幾率,利用泛目錄程序生成海量的內容頁面,增加有效收錄頁面數量。這個時候要怎么讓百度覺得你產生的網頁有人搜,有人看,才能提高有效排名頁面占比,那么你刷快排了嗎?
針對網友的問題
百度爬蟲多久爬一次?
這個取決于你的網站頁面數、網站質量,一般單頁站點在每天1次左右。你從百度獲取的流量越多,爬蟲也爬的越勤奮。
百度爬蟲多久收錄?
首先,新站爬取后,并不會立馬收錄,如果內容質量好,并持續增加內容,預計1個月左右。
其次,優質老站當日就有收錄,也就是秒收。
最后,垃圾站取決于你的態度,垃圾內容越多,越不收錄。
百度爬蟲多久更新?
分兩種情況,
第1種,網站內容被爬蟲訪問后,如果內容質量垃圾,收錄蜘蛛訪問后1-3天內,如果沒有快照蜘蛛訪問,多久都不會有更新。
第2種,網站內容質量好,快照蜘蛛訪問后一般1-3天內快照必然更新,否則是你的站沒有過考察期,要等1-3個月不等。
文末福利
今天就這些,下一節我們將拿一個案例來分析。微信公眾號優質評論前10名將會獲得碼迷整理的66個百度專利,先到先得。
本系列首發于www.699tw.com,同步發布于公眾號”碼迷SEO“,未經允許不可轉載。
關于碼迷:
7年SEOer,摩天樓內容助手作者,專注SEO算法研究,精益科學SEO鑒定倡導者。QQ709808807,歡迎志同道合加我交流。
本文網址: http://www.699tw.com/seojishu/section-4
留言評論