robots.txt协议-互联网robots搜索规范

最近在看搜索爬虫相关的，挺有趣的，记录一些信息备用。

robots.txt官方说明网站

http://www.robotstxt.org/

robots.txt原则

Robots协议是国际互联网界通行的道德规范，基于以下原则建立：

1、搜索技术应服务于人类，同时尊重信息提供者的意愿，并维护其隐私权；

2、网站有义务保护其使用者的个人信息和隐私不被侵犯。

robots.txt基本介绍

robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。

如果将网站视为酒店里的一个房间，robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观，哪些房间因为存放贵重物品，或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令，也不是防火墙，如同守门人无法阻止窃贼等恶意闯入者。

另外，robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

淘宝封杀百度爬虫

可以查看taobao的robots.txt文件：http://www.taobao.com/robots.txt

京东封杀一淘爬虫

可以查看jd的robots.txt文件：http://www.jd.com/robots.txt

关于robots.txt的百度百科说明：

robots协议

posted @ 2015-03-09 15:03 LiangjiChen 阅读(660) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

LiangjiChen

robots.txt协议-互联网robots搜索规范

公告