首頁 » SEO技術分享 » 網站的robots.txt怎么寫?

網站的robots.txt怎么寫?

2015年12月05日 16:16:18 | 推薦:昆明e領域 | 標簽: | 瀏覽次數:898 次

對于網站的robots.txt怎么寫?robots.txt的寫作語法,互聯網有多種,對于很多新手朋友來說很難選擇正確的robots寫法,,今天就給大家分享一下我自己網站的robots.txt的具體寫法...
如何寫robot.txt昆明e領域微信二維碼

一、為什么要寫robots.txt文件。

寫robots.txt文件最大的用途是:網站中有不想被搜索引擎收錄的部分或者是指定搜索引擎只收錄特定的部分,才在網站上寫robots.txt文件。這個文件作用是指定spider在您網站上的抓取范圍。

請注意,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。

二、robots.txt文件放到哪里?

robots文件放到網站的根目錄下,也就是”wwwroot”或者是”web”文件夾下。例如我的網站是:http://www.rdv1.net,我網站的robots文件就是放到wwwroot根目錄下,http://www.rdv1.net/robots.txt就可以訪問這個文件。

作用原理:當spider訪問一個網站(比如 http://www.rdv1.net)時,首先會檢查該網站中是否存在http://www.rdv1.net/robots.txt這個文件,如果 Spider找到這個文件,它就會根據這個文件的內容,來確定它訪問權限的范圍。

三、robots.txt怎么寫:

robots.txt文件的書寫,要根據自己的需求進行合理的配置。

書寫要點:文件名必須為小寫,也就是”robots.txt”,不能是”ROBOTS.TXT””Robots.txt””roBots.txt”或者其他,不能有大寫。

書寫語法:

看一個robots.txt案例:http://www.rdv1.net/robots.txt

訪問可以看到是這樣寫的:

# Robots.txt file from http://www.rdv1.net
# All robots will spider the domain
User-agent: *
Disallow: /e0yu/
Disallow: /haobangshou/
Disallow: /shengzhou/

上面文本的意思是允許所有的蜘蛛訪問www.rdv1.net,但是不讓蜘蛛訪問”/e0yu/”/haobangshou/”/shengzhou/”。

具體語法分析:

其中#后面文字為說明信息;

User-agent:后面為搜索機器人的名稱,后面如果是*,則泛指所有的搜索機器人;

Disallow:后面為不允許訪問的文件目錄。

四、robots.txt的具體用法:

1、允許所有的蜘蛛都可以訪問:

User-agent: *
Disallow:

2、禁止所有的蜘蛛訪問:

User-agent: *
Disallow:/

3、禁止蜘蛛訪問的幾個目錄:

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

4、禁止某一個蜘蛛訪問:

User-agent: BadBot(蜘蛛名)
Disallow: /

5、只允許某個蜘蛛訪問:

User-agent: BadBot(蜘蛛名)
Disallow:

6、允許蜘蛛訪問特定目錄的部分url:

User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi

7、使用”*”限制訪問url:

禁止訪問/01/目錄下的所有的”.htm”后綴的URL(包含子目錄):

User-agent: *
Disallow: /cgi-bin/*.htm

8、使用”$”限制訪問url:

例如:僅允許訪問以”.htm”為后綴的URL。

User-agent: *
Allow: .htm$

9、禁止所有的蜘蛛訪問網站中的所有動態頁面:

User-agent: *
Disallow: /*?*

10、禁止所有的蜘蛛訪問網站中的所有圖片:

User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

11、僅允許所有的蜘蛛訪問”gif”格式的圖片:

User-agent: *
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$

五、robots.txt文件的格式詳解:

1、“robots.txt”:文件包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結束符)。

2、“User-agent”:用于指定搜索引擎robot的名字。”robots.txt”文件中,有多個User-agent,說明有多個robot會受 限制。

如果設置”*”,則對任何robot均有效。但是在”robots.txt”文件中,”User-agent:*”這樣的記錄只能有一條。

3、“Disallow”:用于描述不想被搜索引擎訪問的URL。這個值可以是一條完整的路徑,也可以是路徑的非空前綴,但是要以Disallow項的值開頭的URL才不會被 robot訪問。

例如:”Disallow:/help”表示的禁止robot訪問/help.html、/helpabc.html、/help /index.html等。

例如:”Disallow:/help/”表示的是允許robot訪問/help.html、/helpabc.html等頁面,但是不能訪問 /help/index.html。

“Disallow:”說明允許robot訪問該網站的所有url,在”/robots.txt”文件中,至少要有一 條Disallow記錄。如果”/robots.txt”不存在或者為空文件,則對于所有的搜索引擎robot,該網站都是開放的。

4、“Allow”:表示的是希望蜘蛛訪問的URL。這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL 是允許robot訪問的。

例如:”Allow:/hibaidu”表示的允許robot訪問/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。

一個網站的所有URL默認是Allow的,所以Allow通常與Disallow搭配使用,實現允許訪問一部分網頁 同時禁止訪問其它所有URL的功能。

5、使用”*”和”$”:

Baiduspider支持使用通配符”*”和”$”來模糊匹配url。

“$” 匹配行結束符。

“*” 匹配0或多個任意字符。

六、robot.txt的標簽用法:

robot 有個meta標簽,主要針對一個個具體的頁面。robot mate 標簽同樣是放在頁面的<head></head>標簽中。用來告訴搜索引擎ROBOTS如何抓取該頁的內容。

標簽的寫法:robot mate 標簽沒有大小寫的區分,name=”Robots”表示所有的搜索引擎,可以針對某個具體搜索引擎,例如:name=”BaiduSpider”。content部分有四個指令選項:index、noindex、follow、nofollow,指令間以“,”分隔。

index指令告訴搜索機器人抓取該頁面;

noindex 指令表示搜索機器人可以沿著該頁面上的鏈接繼續抓取下去;

Robots Meta標簽的缺省值是index和follow,只有inktomi除外,對于它,缺省值是index,nofollow。

一共有四種組合:

<meta name=”robots” content=”index,follow”>

<meta name=”robots” content=”noindex,follow”>

<meta name=”robots” content=”index,nofollow”>

<meta name=”robots” content=”noindex,follow”>

目前看來,絕大多數的搜索引擎機器人都遵守robots.txt的規則,而對于Robots META標簽,目前支持的并不多。

七、robot.txt文件配置參考資料:

百度官方禁止搜索引擎收錄的方法:

鏈接地址:http://help.baidu.com/question?prod_en=search&class=499&id=1000562

上面的介紹中,為你講述了“為什么要寫robots.txt文件”“robots.txt文件放到哪里”“robots.txt怎么寫”“robots.txt的具體用法”“robots.txt文件的格式詳解”“robot.txt的標簽用法”。你學會了么?沒有學會就多看幾遍吧!如果你在學習過程中有疑問,可以在文章下留言或者在網站的“SEO技術問答”版塊上提交問題給我們,我們將在一天內給你答復。

 

原文地址:http://www.rdv1.net/seo-jishufenxiang/339.html(轉載注明出處)

★王中王论坛★