墨小澄  

2020年5月18日

摘要: 一、简介 1、robot协议(爬虫协议):这个协议告诉引擎哪些页面可以抓取,哪些不可以 -User-agent:爬虫引擎 -allow:允许robot访问的URL -disallow:禁止访问的URL 2、爬虫约束:过快/频繁的网络爬虫会对服务器产生巨大的压力,网站可能封锁你的IP,或者采取法律行动 阅读全文
posted @ 2020-05-18 18:55 墨小澄 阅读(253) 评论(0) 推荐(0) 编辑