Robots Meta 指令 - Robots Meta Directives
Meta 指令 - Robots Meta Directives
Robots Meta 指令(有時也稱為“Meta標簽”)是一些程序語法,它們提供網頁爬蟲如何抓取或索引網頁內容的抓取指令,雖然robots.txt文檔指令也可以幫網絡爬蟲提供了如何抓取網站的建議,但Robots Meta指令提供了更為嚴格的,指導網頁爬蟲如何抓取和索引頁面的內容。
有兩種類型的Robots Meta 指令:屬于HTML頁面(如meta robots tag)的部分,以及Web服務器作為HTTP頭部(如 x-robots-tag)發送的指令。meta robots tag和x-robots-tag都可以使用相同的參數(即Meta提供的抓取或索引指令,例如上述示例中的“noindex”和“nofollow”),不同的是這些參數如何傳遞給網頁爬蟲。
Meta指令提供抓取工具并解釋,如何抓取和索引特定網頁上的內容,如果這些指令是被機器人搜索到,那么參數就成為了規范爬蟲行為的強有力的建議,但是與robots.txt文檔相同,抓取工具不必遵循meta指令,所以可以肯定的是,一些惡意的web機器人可以忽略你的指令。
以下是搜索引擎抓取工具在robots meta指令中使用的參數,這些參數不區分大小寫,但請注意,有些搜索引擎可能只遵循這些參數的子集,或者可能會略微不同地處理某些指令。
參數設置:
Noindex: 告訴搜索引擎不要索引該網頁。
Index: 告訴搜索引擎索引該網頁,不必特意加入此標簽,因為這是缺省的。
Follow:即使網頁沒有被索引,網頁爬蟲也應該追蹤網頁上的所有鏈接,并將權限傳遞給鏈接的網頁。
Nofollow: 告訴網頁爬蟲也不要追蹤網頁上的所有鏈接,并將不可以將權限傳遞給鏈接的網頁。
Noimageindex: 告訴網頁爬蟲不要索引該網頁上的任何圖像。
None:相當于同時使用noindex和nofollow標簽。
Noarchive:搜索引擎不應該在SERP(搜索結果頁面)上顯示暫存的鏈接到這個網頁。
Nocache:與noarchive相同,但只用于Internet Explorer和Firefox瀏覽器。
Nosnippet:告訴搜索引擎不要在SERP(搜索結果頁面)上顯示該網頁的一個片段(即Meta描述)。
Noodyp/noydir [OBSOLETE]:阻止搜索引擎使用DMOZ的網頁描述作為此頁面的SERP(搜索結果頁面)片段說明。但是,DMOZ在2017年初關站,這個標簽已經過時了。
Unavailable_after: 搜索引擎不應該在特定的日期之后索引該網頁。
機器人Meta指令的類型
有兩種主要類型的機器人Meta指令: meta robots tag和 x-robots-tag。任何可以在meta robots tag中使用的參數也可以在x-robots-tag中指定。
我們將在下面討論meta robots tag和 x-robots-tag指令。
Meta robots tag
Meta robots tag(俗稱“Meta標簽”或“robots 標簽”)是網頁HTML代碼的一部分,在網頁的
部分以代碼顯示:
代碼范例
<meta name="robots" content="[PARAMETER]" >
標簽是標準的設置方式,也可以使用特定用戶代理的名稱來替換“robots”做為特定的搜索。 例如,要專門針對Googlebot指定某個指令,您需要使用以下代碼:
<meta name="googlebot" content="[DIRECTIVE]" >
想要在網頁上使用多個Meta指令?只要他們是相同的“機器人”(用戶代理),多個指令可以包含在一個meta指令中 - 只需用逗號分隔即可。這是一個例子:
<meta name="robots" content="noimageindex," "nofollow," "nosnippet" >
這個標簽會告訴機器人不要索引網頁上的任何圖像、任何鏈接,或者當網頁出現在SERP(搜索結果頁面)上時顯示網頁哦明片段。
如果您針對不同的搜索用戶代理使用不同的元機器人標簽指令,則需要為每個機器人使用不同的標簽。
X-robots-tag
meta robots tag允許您在網頁層級控制索引行為,但是x-robots-tag可以作為HTTP表頭的一部分并包含在內,以控制全部網頁的索引,以及網頁的特定元素。
盡管您可以使用x-robots-tag來運行與meta robots相同的索引指令,但是x-robots-tag指令提供了更多的靈活性和X-robots-tag所不具備的功能。 具體而言,x-robots-tag允許使用正規表達式,在非HTML文檔上運行爬行網頁指令,并在全局層級使用參數。
要使用x-robots-tag,您需要訪問您網站的header .php,.htamless或服務器文檔,從那里,添加您的特定服務器配置的x-robots-tag標記,包括任何參數,提供了一些很好的示例,解說如何使用這三種方式中的其中一種,x-robots-tag的概述。
以下是可能會使用到x-robots-tag狀況的范例:
控制未用HTML撰寫的內容的索引(如Flash或視頻)。
阻止網頁特定元素(如圖像或影片)的索引,而不是全部網頁本身
如果您無法訪問網頁的HTML(特別是
部分),或者您的網站使用了無法更改的全局層級標題。
添加規則來判斷是否應將網頁編入索引(例如,如果用戶留言了20多次,則將網頁編入索引)
SEO與robots meta指令的最佳做法
所有meta指令(robots或其他)都是在抓取URL時發現的,這意味著,如果robots.txt文檔不允許抓取網址,則網頁上的任何meta指令(無論是在HTML還是在HTTP header)都將不會被看到,并且將被忽略。
在大多數情況下,應該使用帶有參數“noindex,follow”的robots meta tag來限制抓取或索引,而不是使用robots.txt文檔禁止。
需要注意的是,惡意爬蟲很可能會完全忽略meta指令,因此這個協議并沒有形成一個好的安全機制,如果您有不想公開搜索的隱私消息,請選擇更安全的方法(如密碼保護),以防止瀏覽者查看機密網頁。
您不需要在同一頁面上同時使用Meta robots tag和X-robots-tag - 這樣做是多余的。
數據源:
本文網址: http://www.699tw.com/seo-google/4o357w947r92
留言評論