劉連康:網站robots.txt文件怎么寫?

劉連康 2020年11月6日17:38:17網絡隨筆評論1,3484003字閱讀13分20秒閱讀模式

網站robots.txt文件對于SEO來說是非常重要的,如果你參加過正規的SEO培訓,你就會知道,當搜索引擎蜘蛛第一次來訪問你網站時,它首先要做的第一件事情就是要看看你網站根目錄里面有沒有robots.txt文件。

 

如果你的網站有robots.txt文件,那么搜索引擎蜘蛛就會按照robots.txt文件里面的協議進行工作;如果你的網站沒有robots.txt文件,那么搜索引擎蜘蛛就會隨意的抓取你網站內容。

 

有很多SEOer工作了好些年,至今連網站robots.txt文件都還不會寫,這些人也真的是大有人在。

 

也有做事情比較粗心大意的SEOer,他們在建設網站之前,總是喜歡在robots.txt文件寫著禁止任何搜索引擎蜘蛛訪問的命令,然后等網站建設好之后,往往會忘記解禁,導致網站遲遲不見收錄。找遍了所有會出現問題的地方,可就是不知道問題到底出現在哪里。

 

當然,我們做網站SEO,其目的就是需要讓搜索引擎收錄,這樣才能更好地增加網站的訪問量。

 

但是也有個別行業的網站,比方說:安全性要求較高銀行和企業的內部管理系統等等,他們這種網站的安全性和私密性會比較高,肯定是不希望把數據隨意的暴露出來。

 

不管是什么樣的需求,我們都需要正確的書寫網站robots.txt文件。今天康哥就來給大家分享一下網站robots.txt文件到底該怎么寫?有哪些需要注意的地方?

 

1、如果我們想讓所有搜索引擎訪問我們網站的所有內容,那么我們就可以建立一個空白的文本文檔,命名為robots.txt放在網站的根目錄下就可以了,robots.txt寫法如下:

User-agent: *

Disallow:

或者是

User-agent: *

Allow: /

 

2、如果我們禁止所有搜索引擎訪問網站的所有內容,那么網站robots.txt就可以這樣寫:

User-agent: *

Disallow: /

 

3、如果我們需要禁止某一個搜索引擎來抓取我們的網站,比如百度搜索引擎,網站robots.txt就可以這樣寫:

User-agent: Baiduspider

Disallow: /

 

4、如果我們想要禁止谷歌抓取我們的網站,其實也跟剛才一樣,我們只需要把User-agent:頭文件的蜘蛛名字改成谷歌的Googlebot 即可,robots.txt寫法如下:

User-agent: Googlebot

Disallow: /

 

5、如果我們想要禁止除了谷歌以外,不想讓其他搜索引擎來抓取我們的網站,那么我們的網站robots.txt就可以這樣寫:

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /

 

6、如果我們想要禁止除了百度以外,不想讓其他搜索引擎抓取我們的網站,robots.txt就可以這樣寫:

User-agent: Baiduspider

Disallow:

User-agent: *

Disallow: /

 

7、如果我們需要禁止任何搜索引擎蜘蛛訪問某個目錄,比方說,我們想要禁止搜索引擎蜘蛛抓取admin、css、images等目錄,robots.txt就可以這樣寫:

User-agent: *

Disallow: /css/

Disallow: /admin/

Disallow: /images/

 

8、如果我們允許搜索引擎蜘蛛訪問我們網站的某個目錄中的某些特定網址,robots.txt可以這樣來寫:

User-agent: *

Allow: /css/my

Allow: /admin/html

Allow: /images/index

Disallow: /css/

Disallow: /admin/

Disallow: /images/

 

9、我們在做SEO優化時,會常常去瀏覽別人做得比較優秀的網站,取長補短。當你看到某些網站robots.txt文件里的Disallow或者是Allow里會出現有很多的符號,比如:問號或者是星號什么的。

 

你不要覺得奇怪,其實這也是網站robots.txt文件的一種寫法,并沒有什么錯誤之處。

 

如果使用“*”,主要是限制訪問某個后綴的域名。

 

廢話不多說,我們還是直接上干貨吧。如果我們想要禁止任何搜索引擎蜘蛛訪問網站/html/目錄下的所有以".htm"為后綴的URL(當然也包含了子目錄)。 robots.txt可以這樣寫:

User-agent: *

Disallow: /html/*.htm

 

10、如果我們看到一些網站robots.txt文件使用了“$”,那么他們所表達的意思就是僅僅允許搜索引擎蜘蛛訪問某個目錄下某個后綴的文件。

robots.txt需要這樣寫:

User-agent: *

Allow: .asp$

Disallow: /

 

11、如果我們想要禁止搜索引擎蜘蛛訪問網站中所有的動態頁面(也就是帶有“?”的URL,例如index.asp?id=1)robots.txt寫法如下:

User-agent: * Disallow: /*?*

 

當你SEO優化過很多網站,SEO實戰經驗非常豐富時,尤其是優化那些大型網站,搜索引擎蜘蛛來訪問很頻繁的那種,你就會發現我們的服務器每天都必須要承受著非常大的壓力。

 

所以,這時候我們為了節省服務器資源,需要禁止各類搜索引擎來抓取我們網站上的圖片,這里的辦法除了使用“Disallow: /images/”這樣的直接屏蔽文件夾的方式之外,我們還可以采取直接屏蔽圖片后綴名的方式。

 

12、如果我們禁止谷歌搜索引擎蜘蛛抓取我們網站上的所有圖片(注意:如果你的網站使用了其他后綴的圖片名稱,在這里也可以直接添加) robots.txt寫法如下:

User-agent: Googlebot

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

 

13、如果我們禁止百度搜索引擎蜘蛛抓取我們網站上的所有圖片,robots.txt可以這樣寫:

User-agent: Baiduspider

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

 

14、除了百度搜索引擎蜘蛛和谷歌搜索引擎蜘蛛之外,你想要禁止其他搜索引擎蜘蛛抓取你網站的圖片(注意:在這里為了讓大家能夠看的更明白,我們就使用一個比較笨的辦法,對于單個搜索引擎單獨定義。) robots.txt寫法如下:

User-agent: Baiduspider

Allow: .jpeg$

Allow: .gif$

Allow: .png$

Allow: .bmp$

User-agent: Googlebot

Allow: .jpeg$

Allow: .gif$

Allow: .png$

Allow: .bmp$

User-agent: *

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

 

15、我們只允許百度搜索引擎蜘蛛抓取網站上的“jpg”格式文件,僅僅需要修改一下搜索引擎的蜘蛛名稱就可以了。

網站robots.txt文件可以這樣寫:

User-agent: Baiduspider

Allow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

 

16、我們想要單獨禁止百度搜索引擎蜘蛛抓取網站上的“jpg”格式文件,robots.txt可以這樣寫:

User-agent: Baiduspider

Disallow: .jpg$

 

17、如果?表示一個會話ID,那么我們就可以排除所有包含該ID的網址,確保谷歌搜索引擎蜘蛛不會抓取重復的網頁。

但是,以?結尾的網址可能是你網站要包含的網頁版本。

在這種情況下,我們就可以與Allow指令配合使用。 robots.txt寫法如下:

User-agent:*

Allow:/*?$

Disallow:/*?

 

在這里我們就可以看到,Disallow:/ *?這一行命令將會攔截包含?的網址。說具體點,它將會攔截所有以你網站的域名開頭、后接任意字符串,然后是問號(?),而后又是任意字符串的網址。

 

那么呢,這個Allow: /*?$這一行命令將會允許包含任何以?結尾的網址。也就是說,它將允許包含所有以你網站的域名開頭、后接任意字符串,然后是問號(?),問號之后沒有任何字符的網址。

 

18、如果我們想要禁止搜索引擎蜘蛛對一些目錄或者是某些URL的訪問,我們就可以截取URL部分的名字。

robots.txt可以這樣寫:

User-agent:*

Disallow: /plus/feedback.php?

 

網站robots.txt文件的寫法康哥已經給你們分享的非常詳細了,不管是什么樣的網站,以上這18種robots.txt文件寫法,總有一個適合你。

 

但是康哥想要提醒一下大家,其實robots.txt文件并不需要寫的太復雜,只需要把不需要參與SEO排名的一些亂七八糟的東西給禁止掉就行了,比方說:網站里面的css、js、網站安裝路徑和網站后臺路徑等等。

 

對了,文章開頭康哥就已經給你們講過:當搜索引擎蜘蛛第一次來訪問你網站時,它首先要做的第一件事情就是要看看你網站根目錄里面有沒有robots.txt文件。

 

既然搜索引擎蜘蛛第一個要訪問的是我們網站里面的robots.txt文件,那么我們這時候就可以將網站地圖鏈接地址放在這個robots.txt文件里面。

 

比方說,我們可以這樣寫:Sitemap: http://www.webseriesmag.com/sitemap.xml

 

如此一來,我們網站很多內頁URL就可以快速被搜索引擎蜘蛛發現和抓取到了。

本文為原創文章,版權歸作者所有,歡迎轉載,轉載請注明作者和出處,謝謝!

作者:劉連康

首發:劉連康博客

  • 我的微信
  • 這是我的微信掃一掃
  • weinxin
  • 我的微信公眾號
  • 我的微信公眾號掃一掃
  • weinxin
劉連康
  • 本文由 發表于 2020年11月6日17:38:17
匿名

發表評論

匿名網友 填寫信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

確定