会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
雨婷墨染
CV&ML:https://inkdyehuang.github.io/
博客园
首页
新随笔
联系
订阅
管理
2016年9月29日
robots协议——(Robots Exclusion Protocol)网络爬虫排除标准
摘要: robots.txt用处:告诉spider程序服务器上什么文件可以访问,什么文件不能访问。 robots.txt写法:User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符 Disallow:/admin/ 这里指定该spider不能爬寻/admin/文件夹下的文件:这个关键字
阅读全文
posted @ 2016-09-29 14:52 雨婷墨染
阅读(2095)
评论(0)
推荐(0)
编辑
公告