上篇文章 “認識抓取(Crawl)與索引(Index)” 我有跟各位介紹搜索引擎的運作概念
meta robots以及robots.txt的工作分別是阻止Google 抓取、索引你的頁面。在這個年頭,只是SEO排名/流量高是沒有用的,流量必須對企業有價值、必須要能夠創造轉換,所以用戶體驗相對重要,如果你有特定頁面會傷害用戶體驗(UX),你可以透過這些方式去阻止該頁面出現在Google 搜索結果中。
- robots.txt可以阻止搜索引擎抓取你的數據,如果你使用了robots.txt來阻擋搜索引擎,那么搜索引擎將會略過你所阻擋的頁面,不去做抓取。
- 但meta robots 就不同了,他在索引層面阻止搜索引擎索引你的頁面,但Google 還是有抓取你的網站數據的,但究竟為什么我們要這樣做?后面我將娓娓道來。
學習使用 Robots.txt
基本上,大多數的情況我們都不會使用robots.txt來阻止搜索引擎抓取我們網站,除非你確定這個頁面對 SEO有負面影響,若你有頁面不希望出現在搜索引擎中,我建議使用Meta Robots來控制索引就好,網站的數據還是一樣讓Google去抓取。但若你確定這些頁面會影響 SEO并且你不希望Google抓取到,你就要使用Robots.txt。(比方說開發中,但還沒完成的網頁)
使用robots.txt文檔很簡單,你只要創建一個文檔名為robots的txt文檔,并且上傳到根目錄就好,并且在這個文檔內寫上你希望Google別抓取的頁面路徑。
如圖,你會看到在mamioo.com下面的根目錄我就上傳了這個文檔,并且我不希望搜索引擎抓取到我后臺的登錄頁面,所以才會有disallow:/wp-admin/這些內容
基本上在robots.txt文檔內你只要填好這些信息:
User-agent:填入搜索引擎蜘蛛的值(* 號代表全部)
Disallow:填入你希望搜索引擎別抓取的頁面路徑
Allow:若你禁止抓取的頁面路徑里面又有特定路徑你希望搜索引擎抓取,則填入
學習使用Meta Robots
要用meta robots 你只要直接把它加在head底下,你必須要在“你不希望被索引的頁面底下”,加入這個標簽至head里。
所以如果你有六個頁面不希望被索引?沒錯這六頁你都要手動去加入meta robots。
meta robots的標簽是長這樣:
<head>
<meta name=”robots” content=”noindex , nofollow “>
</head>
基本上這個標簽有 noindex 以及 nofollow 兩個值:
index vs noindex
當你不希望搜索引擎索引此頁面,就填上noindex,若希望正常索引便填上index
follow vs nofollow
至于follow這個值是指,若你希望搜索引擎在抓取此頁面時,不進一步的去抓取該頁面所連出去的鏈接,你就填上nofollow的值 。這個功能通常會用在社區論壇或是網站討論版,是為了防止有人在你的頁面上亂貼鏈接來意圖增加他的SEO 反向鏈接及排名,使用nofollow的話搜索引擎的抓取會在該頁面停止,不繼續往其他鏈接前進,固可以防止亂貼鏈接的事情發生。
兩個值的功用完全不同,我來舉幾個范例讓你完全清楚如何使用。
1. < meta name=”robots” content=”noindex , nofollow”>
這個做法便是告訴搜索引擎,不要索引 我的網站,并且在抓取數據時該頁面的相關鏈接也不要去抓取 。
2. < meta name=”robots” content=”index , nofollow”>
抓取數據時該頁面的相關鏈接不要抓取。
3.< meta name=”robots” content=”noindex , follow”>
不要索引我的頁面,但頁面上所有的鏈接請正常抓?。ㄗ畛S弥褂梅绞剑?/p>
4.< meta name=”robots” content=”index , follow”>
這個做法就沒有任何意義,加上這段標簽跟沒加的道理是一樣的,等于搜索引擎將正常索引及抓取。
做 SEO,何時會用robots.txt阻止Google抓???
對于抓?。–rawl)優化的工作上,你的網站 Google必須要看得懂、并且數據也抓得到。有些動態的網頁結構對網絡蜘蛛的抓取來說是有問題的,這個我于上一篇文章 中有提到,畢竟最可惜的就是你的網站有優質的內容,但Google根本抓取不到數據…。Google 的網絡蜘蛛基本上已經是市場上性能最好的,但相對來說像是、Bing、百度,他們的性能就未必像 Google這樣優秀,所以我們要隨時關注搜索引擎的抓取狀況。
但,有些頁面跟內容你不會希望 Google 抓取到,這時候你必須要使用Robots.txt 來阻擋Google蜘蛛的抓取,這也是我們今天文章討論的重點。我們來看看,什么情況你會希望Google蜘蛛不要抓取你的網站
- 未完成的頁面
如果你有頁面正在由技術人員開發中,但頁面還需要很長的一段時間才能完成,甚至你還需要修改、測試,未完成的頁面通常不會傷害SEO,但你不會希望訪客在搜索引擎中搜索到未完成的頁面,因為未完成的頁面會給用戶較差的使用體驗。
- 測試頁面
我曾經有碰過工程師,為了做功能測試并開了測試用子網域,并上傳與主網域完全一模一樣的內容,于理解Google Panda:網站內容對 SEO的影響 這篇文章中我有提過,一模一樣的網站內容,會對SEO造成傷害,若有這樣的頁面我會建議你將 Google蜘蛛擋在門外比較好。
- 網站后臺、其他理由
以我來說,我的網站是使用Word Press架設出來的,所以我有使用robots.txt防止搜索引擎抓取我的網站后臺,搜索引擎抓取到后臺的登錄頁面對于SEO沒有傷害,但也一點幫助都沒有。同時如果你壓根就不希望搜索引擎抓取你的網站,我也建議你使用robots.txt來阻止搜索引擎的抓取。
做 SEO,何時會用meta robots阻止Google 創建索引?
若某些頁面你不希望在搜索引擎被user搜索到,但這些頁面事實上有很多對SEO排名有加分的因素,所以你會希望Google抓取這些頁面的數據,但別創建進搜索引擎索引 ,這時候你需要meta robots 來阻止Google索引你的頁面 。
這種情況通常是因為某些頁面作為 Landing Page 會影響用戶體驗,但你又希望Google能抓取頁面上的數據(因為這頁有很多的反向鏈接、流量)所以你將它排除索引、維持抓取。我來舉個范例讓你清楚理解:
- 范例A:
Harris老公在自己博客的 “搜索結果頁” 上使用了meta robots 阻止Google索引這些頁面,因為新的user如果從搜索引擎landing 到舊用戶搜索過的頁面,這樣會對新user 造成負面的用戶體驗;但是我的搜索結果頁有很多人分享、有很多反向鏈接、很多流量,這些都對我的 SEO排名有幫助,我希望 Google 來抓取這個頁面,知道我的網站有很多分享、反向鏈接。于是我就使用了meta robots 來禁止Google索引我的搜索結果頁,但是Google還是有抓取到我這頁的數據,并且對我全部網站的SEO排名有幫助!
- 范例B:
Harris 經營書店電子商務網站,User 在登錄會員之前就可以使用購物車,但我不希望User 的購物車頁面被Google 索引進搜索引擎,所以我用meta robots 來阻止搜索引擎進行索引。
注意 – Google 說他們是參考參考
了解meta robots以及robots.txt之后,你可以優化網站的抓取及索引狀況,阻止特定頁面跟被抓到或是被索引。
但有一件很重要的事要注意,Google 官方有很明確的聲明,meta robots 以及 robots.txt 確實可以告訴 Google 你希望哪些頁面不要被抓取以及索引,Google也會尊重你的決定(畢竟你是網站擁有者),但 Google 官方不保證 搜索引擎會完全服從meta robots以及robots.txt (我知道,你現在是不是覺得 what the fuck?),若搜索引擎認為你的網站有很多很多的反向鏈接、流量很高、內容很優質,是優質網站,他也有可能會執意要抓取、索引你的網站。
本文網址: http://www.699tw.com/seo-peixun/a2318o3r48re
留言評論