robots,搜索引擎抓取协议,其作用是规范搜索引擎抓取,是搜索引擎爬行网站的第一个文件,写好robots文件非常重要,稍微出点差错就会有可能把原本应该被抓取的内容被禁止抓取,或者使得整个网站不被抓取。
下面就来看看robots文件该怎么写:
1、robots文件是txt文本,文件名:robots.txt,这个是固定的,不能是其他的名字;
2、robots常用语法:
User-agent: * Disallow: /include Disallow: /templets Allow: /php
User-agent: *:User-agent是用来定义搜索引擎类型的,"*"表示允许所有搜索引擎抓取,如果只希望某一个搜索引擎抓取自己的网站,只需把"*"换成该搜索引擎的搜素引擎蜘蛛就可以了,在写User-agent: *的时候要注意,符号是英文状态下的符号,星号和冒号之间有个空格,星号之后不能有多余的空格或者别的符号。
Disallow: /:表示不被抓取,当网站有某个文件或者某个页面不想被抓取收录可以用Disallow来告诉搜索引擎蜘蛛这部分内容禁止抓取,这样搜索引擎蜘蛛就会跳过这部分内容。反斜杠表示网站根目录,禁止被抓取的内容写在反斜杠后面,注意:如果反斜杠后面没有写任何内容,则整个网站的内容都不会被搜索引擎抓取。
Disallow的匹配原则以冒号后面不包含空格的内容为匹配关键词,凡是路径上出现了匹配关键词的内容都会被搜索引擎屏蔽。
Allow: :允许被抓取搜录的文件,当disallow屏蔽的内容里有想要被收录抓取 的内容时,可以用allow把这部分内容重新提取出来。
以上就是robots协议文件常用的语法。
【注意事项】
每个语法的第一个字母大写,其余字母小写;
每个语法冒号后面的空格一定不能少;
写语法时用到的符号是英文状态下的符号;
每一项内容写完之后不要有多余的空格;