(参考)爬虫4-爬虫引起的问题以及robots协议
网络爬虫引发的问题
网络爬虫的尺寸:
小规模,数据量小,爬取速度不敏感,使用Requests库,应用占比90% | 中规模,数据规模较大,爬取速度敏感,Scrapy库 | 大规模,搜索引擎、爬取速度关键,定制开发 |
爬取网页 玩转网页 | 爬取网站 爬取系列网站 | 爬取全网 |
网络爬虫的‘骚扰’,对于web服务器有骚扰
网络爬虫的法律风险,服务器上的数据有产权归属
网络爬虫的泄露隐私
限制网络爬虫:
1、来源审查:判断user-agent字段,检查来访HTTP协议头
user-agent域,只响应浏览器或友好爬虫的访问
2、发布公告:Robots协议,告知爬取策略。
Robots协议介绍:爬取策略,在网站根目录下的robots.txt文件。
基本语法:user-agent *
可查看http://www.baidu.com/robots.txt
invictus maneo!