robots.txt 文件说明

robots其实就是指Robots协议,Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取
搜索引擎蜘蛛来到我们的网站时,第一个访问的文件就是robots.txt文件,如果网站没有robots.txt,就默认搜索引擎可以抓取网站里所有的内容。

文件包含内容:

User-agent: 搜索引擎蜘蛛的名称
Disallow: 既要拦截的部分
Allow : 允许搜索的部分
Sitemap: 网站地图

 

作用:

1 设置禁止搜索引擎访问的页面,如后台页面,搜索结果页面,静态页面,重复的页面。低质量 或者不希望被收录的网页。
2 告诉搜索引擎网站地图在哪
3 如果不设置,,会使用搜索引擎匹配到很多无用的信息,会降低该网站的权重,影响该网站的排行等

 

示例

    一、
  User-agent: *(定义所有搜索引擎)
  User-agent: Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)
  User-agent: Baiduspider  (定义百度,只允许百度蜘蛛爬取)

  不同的搜索引擎的搜索机器人有不同的名称,谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp。

  二、Disallow:(用来定义禁止蜘蛛爬取的页面或目录)

  示例:
    Disallow: /(禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下)
    Disallow: /admin (禁止蜘蛛爬取admin目录)
    Disallow: /abc.html (禁止蜘蛛爬去abc.html页面)
    Disallow: /help.html (禁止蜘蛛爬去help.html页面)
        Disallow: /search?1.html (?禁止这个开头的页面)

  三、Allow:(用来定义允许蜘蛛爬取的页面或子目录)
  示例:
    Allow: /admin/test/(允许蜘蛛爬取admin下的test目录)
    Allow: /admin/abc.html(允许蜘蛛爬去admin目录中的abc.html页面)

  两个通配符如下:

  四、匹配符 “$”

    $ 通配符:匹配URL结尾的字符

  五、通配符 “*”

    * 通配符:匹配0个或多个任意字符
        Disallow: *-*  屏蔽全站url内带有的 - 的链接

 

posted @ 2022-11-21 16:34  lanwf  阅读(182)  评论(0编辑  收藏  举报