本文是碼迷SEO內參第六篇,本來想寫一篇百度索引相關的文章,昨天忽然看到百度對快排打擊手段的算法專利,小小的分析了一下。
碼迷之前從未找到過針對快排作弊的百度專利,該專利2019年4月份發布,7月30號審核過了,才1個月多一點,感覺新穎的很。
最近也有幾個大佬說快排周期有所變長,甚至有些人覺得是驚雷算法3的節奏。
這份百度打擊快排的專利,大家可以到碼迷SEO官方QQ群734299959去自行下載。
根據百度的節奏,一般專利出現后3個月就開始初步灰度落地,半年左右擴展放閥。也就是估計今年年底做快排的老師們會淘汰一批了。
本文會根據快速排名原理做一下分析,君不聞颶風算法每次升級都哀鴻遍野呀,所以還是未雨綢繆吧。
相比上一年做快排的老師們都是悶聲發大財,今年做快速排名的明顯多了起來。只要是個SEO群,里面就有大佬跟迷妹們吆喝“買快排嘍,不上首頁不要錢”。
可見百度被技術大佬們嘿嘿嘿的夠嗆,就連百度論壇里面的一線站長都掩飾不了對百度算法的信心。
群里面的小伙伴們甚至已經給百度下了定論:百度就是個大垃圾。
丫的,這年頭是個SEO就能做快排的節奏。在這種情況下有些老師也爆出了金句:現在快排泛濫了,這不是好事
碼迷覺得說的真有道理,所謂天道好輪回,蒼天到底饒過誰,佛教里面有個概念叫成、住、壞、空。
無論什么SEO技術手段,在生長,維持,頹敗中不斷演化,最終歸為虛無。就像當年的博客外鏈一樣,正當大家搞得如火如荼的時候,百度一個劈叉下馬威,把博客外鏈權重調低,真是“諸行無?!卑?,所以我們SEOer應該信佛。。。
我擦,不知不覺跑歪了。
快排原理
很多公眾號都講快排原理,但都講的什么破原理,把技術手段搬出來講是什么玩意兒。話說,不識本心,學法無益。
快排的本質是通過模擬點擊或者發包(確實有)等技術手段,干擾百度訓練結果集,讓百度認為你就是最接近用戶需求的那個天選之子。
舉個例子,老王托媒人找對象,李紅娘給老王介紹了6個人老王都不要,請問如果你當老王媒人應該找什么樣的人。
1 老王跟A罩杯的某女相親了5分鐘離場
2 老王跟D罩杯的某女相親了50分鐘離場
3 老王跟100斤的某女相親了100分鐘離場
4 老王跟200斤某女相親了10分鐘離場
5 老王跟1米8的某女相親了3分鐘離場
6 老王跟1米6的某女相親了300分鐘離場
那是不是你應該找 36D100斤1米6的姑娘更好些。
回到搜索,百度就是媒人,老王就是用戶,200斤的某女就是你的網站,然后你找快排大佬硬生生把老王跟200斤的某女鎖在一塊度過了N天,百度還天真的認為老王過的很幸福。
快排手段拆解
快排一個字總結就是“裝”,誰在百度面前裝的像,誰就牛逼。
比如我搜索“SEO”,我永遠離不開header頭里面的參數。
當我點擊某個結果網頁的時候,除了上面的header頭,一堆讓人懵逼的參數也要回饋給百度。
做快排的那幫diao人們,就是在合適的時機,給百度發送這些惟妙惟肖的參數。
但是今天的話題不是教大家做快排,而是分析百度會怎么干翻了那些快排才是重點。
嘿嘿是不是很刺激,這么大的擔子落到你身上了,你怕不怕。碼迷說不用怕,只要會故事的三要素就行了。
故事的三要素:時間,地點、人物
打擊快排的手段1:人物維度
快排一般會模擬兩類用戶:非登錄用戶以及登錄用戶的行為。對于百度,可以搜到如下數據
【用戶單日搜索次數】
如果某一簇用戶人均搜索次數均遠遠超過了平均數,百度會有所察覺。
【用戶行為習慣】
某些快排技術,在做用戶滾輪時長、網頁下拉的時候,都是固定的值,或者介于一定的范圍之內,如果百度能收集到這些數據,也很容易甄別這些異常用戶。
【登錄用戶非登錄用戶占比】
從站點維度,如果某個站點,訪問的非登錄用戶遠遠超過登錄用戶比例,也很容易甄別這些站點。
【臨時用戶、常駐用戶占比】
當我們使用瀏覽器訪問百度的時候,如果是初次訪問,會生成一個永久記錄的COOKIE,除非清空瀏覽器緩存,否則這個COOKIE值一直不變。百度也會根據這個COOKIE來記錄用戶的歷史搜索行為。
某些快排手段因為資源限制,不斷的清理COOKIE,切換用戶。這些生成時間小于某個時長的用戶,就叫“臨時用戶”。
網站點擊的臨時用戶占比過大,也不是正?,F象啊。
【用戶地域穿越行為】
如果某個用戶今天12點出現在廣東的IP上,12點01分又出現在山東的IP上,13點又出現在美國的IP上,這顯然是不合常理的。
這種情況一般出現在那些記錄cookie又玩VPS撥號的快排商家中。
打擊快排的手段2:地點維度
模擬用戶行為離不開產生數據的方法和裝置、那么就永遠脫離不了IP、MAC、瀏覽器、客戶端、系統類型等等
【單IP搜索量】
在IPv6之前,ip資源永遠是稀缺的。如果一個IP每天產生搜索點擊超過了平均數,這點在百度驚雷算法2中已經能夠識別了。
【IP資源有效性】
群里大佬也說,現在即使是VPS撥號重復率也很高。因為現在百度已經可以識別你是代理IP以及機房IP,所以并非所有的IP有效果。
碼迷在百度的同學反饋,在2018年中驚雷算法2已經對快排有所打擊,最先打擊的手段就是IP資源識別。
但是,IP資源并不是重點,比如一個公司局域網500號人,出口都是1-5個IP,這500號人的點擊,百度并不是100%的認為無效。
所以如果大佬有能力跟寬帶商合作,即使IP資源不多也非常有效果。
【終端信息熵】
信息熵是什么,一個系統越是有序,信息熵就越低;反之,一個系統越是混亂,信息熵就越高。因此可以認為信息熵是系統有序化程度的一個度量。
有同學問,這玩意跟快排有毛關系。
無論是發包還是類瀏覽器模擬,都必須攜帶header頭、cookie等等請求百度服務器。
如果是隨機生成的header頭,header信息熵必然混亂,信息熵就很高。
如果是固定的header頭,header信息熵必然有序,信息熵就很低。
終端信息熵總有一個健康的閥值,根據這個健康的閥值范圍,百度也應該甄別一類快排作坊。
【終端分布比例】
隨著4G的普及,其實絕大多數行業都是移動端的訪問量多于PC端的,如果某個行業PC端訪問量遠遠高于手機端,那么很可能有快排干擾。
怎么打擊,如果你的網站跟行業終端分布比例出路太大,你等著吧。百度肯定是掌握這部分數據的,但是內部協調推進是另一回事了哈哈哈。
打擊快排的手段3:時間維度
這塊碼迷只想到一點,歡迎補充
【用戶路徑行為分析】
柏拉圖說的好?。何覐哪睦飦?,要到哪里去。這是個哲學問題,跟丫的快排有毛關系。舉個例子。
真老王今天訪問的你的網站,怎么來的,是這樣的:
真老王第1步搜:胸悶氣短怎么回事(老王覺得胸悶氣短,搜了一段懷疑是肺炎)
真老王第2步又搜:肺炎什么癥狀(看了一下肺炎不太像,看到了肺結核的相關資料)
真老王第3步又搜:肺結核癥狀(看了肺結核癥狀,我擦,怎么這么像?)
真老王第4步又搜:肺結核那家醫院好(終于找到了一家莆田系hospital)
真老王第5步到達你的網站,獻出了寶貴的繩命
某快排模擬假老王可能是這樣的:
假老王第1步搜:肺結核那家醫院好
假老王第2步:打開其他家網站,秒關
假老王第3步:打開你家網站,訪問了好長時間
顯然,真老王的行為自然性要比假老王 可靠的多得多。
在機器學習中,與用戶路徑算法相關的向量模型也不少,百度通過真實用戶聚類出路由訓練集,也可以區分那些簡單腦殘的點擊行為哦。
百度專利解讀
百度在2019年4月29提交了打擊快排算法相關的專利:《CN201910352770.5 用于處理點擊行為數據的方法和裝置》
打擊的范圍:主要是泛域名、寄生蟲站點等。(很符合百度特點、先小范圍測試哦)
專利使用的算法
機器學習,主要是從【設備標識】、【用戶路徑行為分析】兩個維度,做聚類分析,前期用人工標示黑帽樣本集以及白帽樣本集,后期開砍~
被打擊的對象
鑒于聚類算法的特點,那些點擊路徑類似于上面案例中“假老王”的訪問方法,估計會被打的渣渣都不剩。
以后如何做好快排
引用群里大佬的一句話:錢加技術
百度已經開了打擊快排的第一槍,碼迷覺得百度的打擊算法很高大上,畢竟百度的猿們也不是吃素的。
這次專利雖然看起來打擊的范圍有限,但是從IP終端到用戶的訪問路徑均有提及。百度這次行動,碼迷覺得主要目的是黑帽、白帽SEO點擊樣本的搜集,要不不會存在后端人員做樣本庫人工標示。
等百度樣本搜集完成,經小范圍測試后,如果打擊效果不錯,再灰度擴容。意味著那個時候,如果憑有限的終端資源、不嚴謹的模擬參數都會被百度檢測出來,如果那時候做快速排名的老師們再不做技術資源升級,真的渣渣都不剩了。
本系列首發于www.699tw.com,同步發布于公眾號”碼迷SEO“,未經允許不可轉載。高高低
本文網址: http://www.699tw.com/seojishu/section-7
留言評論