(参考)爬虫4-爬虫引起的问题以及robots协议

网络爬虫引发的问题

网络爬虫的尺寸:

小规模,数据量小,爬取速度不敏感,使用Requests库,应用占比90% 中规模,数据规模较大,爬取速度敏感,Scrapy库 大规模,搜索引擎、爬取速度关键,定制开发
爬取网页 玩转网页 爬取网站 爬取系列网站 爬取全网

 

 

 

网络爬虫的‘骚扰’,对于web服务器有骚扰

网络爬虫的法律风险,服务器上的数据有产权归属

网络爬虫的泄露隐私

 

限制网络爬虫:

1、来源审查:判断user-agent字段,检查来访HTTP协议头

user-agent域,只响应浏览器或友好爬虫的访问

2、发布公告:Robots协议,告知爬取策略。

 

Robots协议介绍:爬取策略,在网站根目录下的robots.txt文件。

基本语法:user-agent *

可查看http://www.baidu.com/robots.txt

 

posted @ 2018-03-28 17:52  歪胡子的日常  阅读(161)  评论(0编辑  收藏  举报