首頁 » SEO基礎知識 » 深度解析robot.txt怎么寫及其原理

深度解析robot.txt怎么寫及其原理

2015年12月22日 14:14:53 | 推薦:昆明e領域 | 標簽: | 瀏覽次數:1,129 次

以前寫過一篇關于robot.txt怎么寫的文章,但是對robots.txt怎么寫理解不是很深刻,都是自己看到的一些寫法,今天給大家分享robot.txt怎么寫以及其屏蔽的原理,希望對大家有幫助...
robots.txt怎么寫及其原理昆明e領域微信二維碼

以前發過一篇關于robot.txt怎么寫的文章,但那些都是我自己在互聯網上看到的一些,自己看到和學到的分享給大家,只知道這樣寫,但是不知道為什么要這樣寫?這段時間仔細學過robot.txt怎么寫以及其屏蔽的原理,今天就來分享給大家,希望對大家有幫助…

一、什么是robots.txt?

robots.txt或者是叫Robots協議(也稱為爬蟲協議、機器人協議等)。全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。

最大的作用是:指定爬蟲或者是機器人在您網站上的抓取范圍。只有當網站中有不想被搜索引擎收錄的部分或者是指定搜索引擎只收錄特定的部分,才在網站上寫robots.txt文件。

二、robots.txt存儲位置?

對于robot.txt的存儲位置是網站的根目錄。一般的網站空間的“wwwroot文件夾”或者網站的“web文件夾”下。例如我網站的robots.txt文件就是放在網站的“wwwroot文件夾”下:

http://www.rdv1.net/robots.txt

作用原理:當搜索引擎蜘蛛爬取我們的網站的時候,會首先看網站的根目錄是否有robot.txt文件,如果有,將先讀取robot.txt文件,之后根據上面的權限訪問我們的網站,也就是網站通過robots協議來確定它訪問權限的范圍。

三、什么時候使用robots.txt?

1、統一路徑。就是將網站上的路徑進行統一,主要用在網站的動態路徑改為偽靜態路徑,這個時候就要屏蔽掉動態路徑,進行統一。

2、網站的搜索鏈接。因為對于搜索的鏈接是生成,而且如果搜索的中文字符,那么搜索鏈接上也會出現中文,例如我網站上的“http://www.rdv1.net/?s=建站”當搜索建站的時候,搜索結果面上的鏈接就會帶上中文,這樣的路徑如果被蜘蛛抓取,對網站是不利的。

3、網站的tag標簽鏈接。有些網站的tag標簽,是沒有進行因為命名的,那么點擊之后的頁面也是會出現中文,例如我網站“http://www.rdv1.net/tag/建站”,這時候就應該進行屏蔽。

4、后臺登陸界面。網站的后臺頁面,同樣不能讓搜索引擎蜘蛛進行抓取。

5、網站的死鏈接。網站的死鏈接當然是不想被搜索引擎抓取了。

6、垃圾頁面。例如網站有些留言的頁面。

7、網站的js鏈接。

8、網站的css鏈接。

9、網站帶中文的鏈接。

10、沒有質量的頁面。

四、robots.txt怎么寫?

具體寫法:可以看一個案例,我網站的robots.txt

http://www.rdv1.net/robots.txt

User-agent: *
Disallow: /*?*
Disallow: /*.css$
Disallow: /*.js$
Disallow: /date
Disallow: /tag
Disallow: /*?s=*
Disallow: /wp-admin
Disallow: /e0yu

解釋一下:
User-agent: * ? ? ? 表示的讓所有的搜索引擎的要遵循一下協議。
Disallow: /*?* ? ? ?表示不讓搜索引擎抓取網站上的動態路徑。
Disallow: /*.css$ 表示不想讓搜索引擎抓取網站的css樣式文件。
Disallow: /*.js$ ? ?表示不想讓搜索引擎抓取網站的js腳本文件。
Disallow: /date ? ? 表示不想讓搜索引擎抓取網站的文章歸檔頁面,因為文章歸檔頁面的鏈接是“www.rdv1.net/date/2015/12”。
Disallow: /tag ? ? ? 表示不想讓搜索引擎抓取網站的tag標簽頁面,因為網站的tag標簽,如果沒有進行處理,在網站的地址欄上出現的就是中文界面。
Disallow: /*?s=* 表示的不想搜索引擎抓取網站的搜索界面,因為當在網站上搜索中文關鍵詞的時候,那么地址欄上就會出現中文。
Disallow: /wp-admin 表示不想讓搜索引擎抓取網站的后臺頁面,考慮到網站的安全問題,這個一定要禁止。
Disallow: /e0yu 這個是因為之前網站使用dede做的,改版之后收錄過一些死鏈。

五、robots.txt的屏蔽原理。

1、作用原理:

當搜索引擎蜘蛛來爬取我們的網站的時候,首先要檢查網站是否有robots.txt協議。如果有,那么搜索引擎蜘蛛就是先讀取網站的robots.txt協議。之后根據robots協議進行網站的爬取。robots.txt主要用戶指定搜索引擎蜘蛛爬取的范圍,告訴搜索引擎蜘蛛哪些能爬取哪些不能爬取。

2、屏蔽原理:

Disallow: /seo 那么有“/seo”這個關鍵詞的路徑都會被屏蔽,而且是大規模的屏蔽。例如:http://www.rdv1.net/seo-gaoji、http://www.rdv1.net/seo-jichuzhishi等路徑都會被屏蔽。但是如果路徑是http://www.rdv1.net/dede-seo這樣的就不會被屏蔽,因為這條路徑沒有“/seo”關鍵詞。

此外如果是:Disallow: /s ?那么屏蔽的范圍就更大。Disallow: /s/這樣的屏蔽范圍會小一些,但是屏蔽的更加的精確。

六、注意符號的使用。

*:“*”號表示的所有的。

$:“$”號表示的是結束符。

User-agent: * ?表示的所用的搜索引擎蜘蛛都要執行。如果是單一對某個搜索引擎蜘蛛可以這樣寫“User-agent: *Baiduspider”表示只讓百度蜘蛛執行,其他的可以不執行。對于網站SEO,當然是要讓所用的蜘蛛都要執行。

Disallow: /*?* ? 可以理解為:只要路徑上有“?”,那么這條路徑將會被屏蔽,不管這個“?”出現在前面還是后面,只要有就進行屏蔽。

Disallow: /*.css$ ?這個是屏蔽CSS樣式文件的,之所以是“/*.css$ ”而不是“/.css ”和“/.css$ ”是因為:對于CSS樣式文件是沒有“/.css”后綴的,一定是“/xxxx.css”為后綴的,而且.css后面是沒有其他的,所以一定要使用結束符號。

Disallow: /*.js$ ? 這個是屏蔽JS的,原理同css。

Disallow: /*?s=* ?這個是屏蔽網站的搜索地址的。一般選擇所有的搜索地址中相同的一部分進行屏蔽。例如:我網站上的http://www.rdv1.net/?s=建站,所以這樣寫,對于不同的網站程序,可以不同。

上面的介紹中,為你講述了“什么是robots.txt”、“robots.txt存儲位置”、“什么時候使用robots.txt”、“robots.txt怎么寫”、“robots.txt的屏蔽原理”、“注意符號的使用”。你學會了么?沒有學會就多看幾遍吧!如果你在學習過程中有疑問,可以在文章下留言或者在網站的“SEO技術問答”版塊上提交問題給我們,我們將在一天內給你答復。

推薦閱讀:

網站的robots.txt怎么寫? 深入理解網站robots.txt怎么寫

原文地址:http://www.rdv1.net/seo-jichuzhishi/802.html(轉載注明出處)

相關文章

★王中王论坛★