摘要: requests模块,仿造浏览器发送Http请求bs4主要对html或xml格式字符串解析成对象,使用find/find_all查找 text/attrs 爬取汽车之家 爬取汽车之家的资讯信息,它没有做什么防爬策略,直接request爬取就可以了 但是需要注意的是response返回的gbk编码,需 阅读全文
posted @ 2019-01-17 16:13 财经知识狂魔 阅读(554) 评论(0) 推荐(0) 编辑
摘要: scrapy安装和简单使用 scrapy是一个大而全的爬虫组件,依赖twisted,内部基于事件循环的机制实现爬虫的并发 下载安装: 组件以及执行流程? - 引擎找到要执行的爬虫,并执行爬虫的 start_requests 方法,并的到一个 迭代器。 - 迭代器循环时会获取Request对象,而re 阅读全文
posted @ 2019-01-17 15:41 财经知识狂魔 阅读(439) 评论(0) 推荐(0) 编辑