网络爬虫遵守规则

网络爬虫引发的问题

网络爬虫的尺寸

 

网络爬虫骚扰

 

 

网络爬虫的法律风险

网络爬虫泄露隐私

网络爬虫的限制

1.通过请求头

 

 2.发布公告:Robots协议

告知所有爬虫网站的爬取策略,要求爬虫遵守。

 

 

Robots协议

网络爬虫排除标准

作用:告知网络爬虫哪些页面可以抓取,哪些不行

形式:在网站根目录下的robots.txt文件

 

 

 

案例:真实的Robots协议

 

https://www.baidu.com/robots.txt

 

http://news.sina.com.cn/robots.txt

 

https://www.qq.com/robots.txt

 

https://news.qq.com/robots.txt

 

http://www.moe.edu.cn/robots.txt (无robots协议)

 

 

 

Robots协议的遵守方法

 

 

 

 

posted @ 2020-09-23 11:38  yescarf  阅读(907)  评论(0编辑  收藏  举报