摘要: 网络爬虫(一) 一、简介 1、robot协议(爬虫协议):这个协议告诉引擎哪些页面可以抓取,哪些不可以 -User-agent:爬虫引擎 -allow:允许robot访问的URL -disallow:禁止访问的URL 2、爬虫约束:过快/频繁的网络爬虫会对服务器产生巨大的压力,网站可能封锁你的IP, 阅读全文
posted @ 2020-06-10 21:59 collin_pxy 阅读(350) 评论(0) 推荐(0) 编辑