摘要: 一、架构图 二、流程 1、引擎从调度器中取出一个URL,用于抓取 2、引擎把URL封装成一个请求(start_requests) 传递给下载器 3、下载器把资源下载下来,并封装成Response 4、爬虫解析(parse) Response 5、解析出实体(yield Item),交给pipelin 阅读全文
posted @ 2019-10-27 23:25 市丸银 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 一、使用xpath 不在scrapy框架中通过response HtmlResponse->TextResponse->self.selector.xpath(query, **kwargs)->selector(self)->from scrapy.selector import Selector 阅读全文
posted @ 2019-10-27 23:04 市丸银 阅读(2925) 评论(0) 推荐(0) 编辑
摘要: 设置代理的位置:下载中间件 一、内置代理(优点:简单,缺点:只能代理一个ip) 1、源码分析 process_request(self, request, spider)在下载器执行前执行 _set_proxy方法(设置代理)->self.proxies[scheme]->self.proxies 阅读全文
posted @ 2019-10-27 22:15 市丸银 阅读(2590) 评论(0) 推荐(0) 编辑