摘要: 2017-07-25 22:49:21 阅读全文
posted @ 2017-07-25 22:50 hyserendipity 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 2017-07-25 21:08:16 一、网络爬虫的规模 二、网络爬虫的限制 • 来源审查:判断User‐Agent进行限制 检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问• 发布公告:Robots协议 告知所有爬虫网站的爬取策略,要求爬虫遵守 三、Robots 协议 阅读全文
posted @ 2017-07-25 21:25 hyserendipity 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 2017-07-25 10:38:30 response = requests.get(url, params=None, **kwargs) url : 拟获取页面的url链接∙ params : url中的额外参数,字典或字节流格式,可选 params参数是字典或字节序列,作为参数增加到url中 阅读全文
posted @ 2017-07-25 17:06 hyserendipity 阅读(274) 评论(0) 推荐(0) 编辑