123,123,123

robots.txt概念

如果我們網(wǎng)站內(nèi)有某些特殊的文件不讓搜索引擎收錄，那怎么辦？

答案是：使用一個叫做robots.txt的文件。

robots.txt文件告訴搜索引擎本網(wǎng)站哪些文件是允許搜索引擎蜘蛛抓取，哪些不允許抓取。

搜索引擎蜘蛛訪問網(wǎng)站任何文件之前，需先訪問robots.txt文件，然后抓取robots.txt文件允許的路徑，跳過其禁止的路徑。

總結(jié)：robots.txt是一個簡單的.txt文件，用以告訴搜索引擎哪些網(wǎng)頁可以收錄，哪些不允許收錄。

關(guān)于robots.txt文件的10條注意事項(xiàng)：

1、如果未創(chuàng)建robots.txt文件，則代表默認(rèn)網(wǎng)站所有文件向所有搜索引擎開放爬取。

2、必須命名為：robots.txt，都是小寫，robot后面加"s"。

3、robots.txt必須放置在一個站點(diǎn)的根目錄下。

通過如http://amjx.cn/robots.txt 可以成功訪問到，則說明本站的放置正確。

4、一般情況下，robots.txt里只寫著兩個函數(shù)：User-agent和 Disallow。

5、空格換行等不能弄錯，可復(fù)制這個頁面并修改為自己的。點(diǎn)擊

6、有幾個禁止，就得有幾個Disallow函數(shù)，并分行描述。

7、至少要有一個Disallow函數(shù)，如果都允許收錄，則寫: Disallow:

如果都不允許收錄，則寫:Disallow: / （注：只是差一個斜桿）。

8、允許有多個User-agent，如果對所有爬取蜘蛛生效，則用“*”星號表示。

9、robtos.txt文件內(nèi)可以放上Sitemap文件地址，方便告訴搜索引擎Sitemap文件地址。

10、網(wǎng)站運(yùn)營過程中，可以根據(jù)情況對robots.txt文件進(jìn)行更新，屏蔽一些不要搜索引擎抓取的文件地址。

舉例兩個常見屏蔽規(guī)則：

User-agent: * 星號說明允許所有搜索引擎收錄

Disallow: /search.html 說明 http://amjx.cn/search.html 這個頁面禁止搜索引擎抓取。

Disallow: /index.php? 說明類似這樣的頁面http://amjx.cn/index.php?search=%E5%A5%BD&action=search&searchcategory=%25 禁止搜索引擎抓取。

擴(kuò)展閱讀：

robots.txt概念和10條注意事項(xiàng)