正确编写robots协议让搜索引擎的抓取更具效率

心月IT博客 02-04

默认

摘要：robots，搜索引擎抓取协议，其作用是规范搜索引擎抓取，是搜索引擎爬行网站的第一个文件，写好robots文件非常重要，稍微出点差错就会有可能把原本应该被抓取的内容被禁止抓取，或者使得整个网站不被抓取。

robots，搜索引擎抓取协议，其作用是规范搜索引擎抓取，是搜索引擎爬行网站的第一个文件，写好robots文件非常重要，稍微出点差错就会有可能把原本应该被抓取的内容被禁止抓取，或者使得整个网站不被抓取。

下面就来看看robots文件该怎么写：

1、robots文件是txt文本，文件名：robots.txt，这个是固定的，不能是其他的名字；

2、robots常用语法：

User-agent: * 
Disallow: /include
Disallow: /templets
Allow: /php

User-agent: *：User-agent是用来定义搜索引擎类型的，"*"表示允许所有搜索引擎抓取，如果只希望某一个搜索引擎抓取自己的网站，只需把"*"换成该搜索引擎的搜素引擎蜘蛛就可以了，在写User-agent: *的时候要注意，符号是英文状态下的符号，星号和冒号之间有个空格，星号之后不能有多余的空格或者别的符号。

Disallow: /：表示不被抓取，当网站有某个文件或者某个页面不想被抓取收录可以用Disallow来告诉搜索引擎蜘蛛这部分内容禁止抓取，这样搜索引擎蜘蛛就会跳过这部分内容。反斜杠表示网站根目录，禁止被抓取的内容写在反斜杠后面，注意：如果反斜杠后面没有写任何内容，则整个网站的内容都不会被搜索引擎抓取。

Disallow的匹配原则以冒号后面不包含空格的内容为匹配关键词，凡是路径上出现了匹配关键词的内容都会被搜索引擎屏蔽。

Allow: ：允许被抓取搜录的文件，当disallow屏蔽的内容里有想要被收录抓取的内容时，可以用allow把这部分内容重新提取出来。

以上就是robots协议文件常用的语法。

【注意事项】

每个语法的第一个字母大写，其余字母小写；

每个语法冒号后面的空格一定不能少；

写语法时用到的符号是英文状态下的符号；

每一项内容写完之后不要有多余的空格；

标签： robots 搜索引擎 robots协议