摘要: 爬虫入门之爬取策略 XPath与bs4实现(五) 在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面重点介绍几种常见的抓取策略: 1 深度优先 阅读全文
posted @ 2018-06-27 21:08 诚实善良小郎君 阅读(743) 评论(1) 推荐(0) 编辑
摘要: 1 Requests模块解析 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用 Requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 U 阅读全文
posted @ 2018-06-27 09:32 诚实善良小郎君 阅读(475) 评论(0) 推荐(1) 编辑