本文作者:心月

正确编写robots协议让搜索引擎的抓取更具效率

心月IT博客 2016-02-04
正确编写robots协议让搜索引擎的抓取更具效率摘要:robots,搜索引擎抓取协议,其作用是规范搜索引擎抓取,是搜索引擎爬行网站的第一个文件,写好robots文件非常重要,稍微出点差错就会有可能把原本应该被抓取的内容被禁止抓取,或者使得整个网站不被抓取。

        robots,搜索引擎抓取协议,其作用是规范搜索引擎抓取,是搜索引擎爬行网站的第一个文件,写好robots文件非常重要,稍微出点差错就会有可能把原本应该被抓取的内容被禁止抓取,或者使得整个网站不被抓取。

下面就来看看robots文件该怎么写:

1、robots文件是txt文本,文件名:robots.txt,这个是固定的,不能是其他的名字;

2、robots常用语法:

User-agent: * 
Disallow: /include
Disallow: /templets
Allow: /php

        User-agent: *:User-agent是用来定义搜索引擎类型的,"*"表示允许所有搜索引擎抓取,如果只希望某一个搜索引擎抓取自己的网站,只需把"*"换成该搜索引擎的搜素引擎蜘蛛就可以了,在写User-agent: *的时候要注意,符号是英文状态下的符号,星号和冒号之间有个空格,星号之后不能有多余的空格或者别的符号。


        Disallow: /:表示不被抓取,当网站有某个文件或者某个页面不想被抓取收录可以用Disallow来告诉搜索引擎蜘蛛这部分内容禁止抓取,这样搜索引擎蜘蛛就会跳过这部分内容。反斜杠表示网站根目录,禁止被抓取的内容写在反斜杠后面,注意:如果反斜杠后面没有写任何内容,则整个网站的内容都不会被搜索引擎抓取

        Disallow的匹配原则以冒号后面不包含空格的内容为匹配关键词,凡是路径上出现了匹配关键词的内容都会被搜索引擎屏蔽。


        Allow: :允许被抓取搜录的文件,当disallow屏蔽的内容里有想要被收录抓取 的内容时,可以用allow把这部分内容重新提取出来。


        以上就是robots协议文件常用的语法。


【注意事项】

        每个语法的第一个字母大写,其余字母小写;

        每个语法冒号后面的空格一定不能少;

        写语法时用到的符号是英文状态下的符号;

        每一项内容写完之后不要有多余的空格;

文章版权及转载声明:

本文由 心月IT技术博客 博主整理于 2016-02-04
若转载请注明原文及出处:https://www.xinyueseo.com/SEOjishu/25.html

分享到:
赞(
发表评论
快捷输入:

验证码

    评论列表 (有 0 条评论,人围观)参与讨论