摘要: 搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接不断抓取资料建立自己的数据库。如果网站某些网页不希望被抓取,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是TheRobotsMETA标签。本文只提及robots.txt。1、什么是robots.txt?robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找 阅读全文
posted @ 2013-05-13 10:30 yokoboy 阅读(425) 评论(0) 推荐(0) 编辑
yokoboy