（参考）爬虫4-爬虫引起的问题以及robots协议

网络爬虫引发的问题

网络爬虫的尺寸：

小规模，数据量小，爬取速度不敏感，使用Requests库，应用占比90%	中规模，数据规模较大，爬取速度敏感，Scrapy库	大规模，搜索引擎、爬取速度关键，定制开发
爬取网页玩转网页	爬取网站爬取系列网站	爬取全网

网络爬虫的‘骚扰’，对于web服务器有骚扰

网络爬虫的法律风险，服务器上的数据有产权归属

网络爬虫的泄露隐私

限制网络爬虫：

1、来源审查：判断user-agent字段，检查来访HTTP协议头

user-agent域，只响应浏览器或友好爬虫的访问

2、发布公告：Robots协议，告知爬取策略。

Robots协议介绍：爬取策略，在网站根目录下的robots.txt文件。

基本语法：user-agent *

可查看http://www.baidu.com/robots.txt

posted @ 2018-03-28 17:52 歪胡子的日常阅读(175) 评论(0) 收藏举报

刷新页面返回顶部

invictus maneo