2019 年 10月 27 日随笔档案 - 市丸银

2019年10月27日

摘要：一、架构图二、流程 1、引擎从调度器中取出一个URL，用于抓取 2、引擎把URL封装成一个请求(start_requests) 传递给下载器 3、下载器把资源下载下来，并封装成Response 4、爬虫解析(parse) Response 5、解析出实体(yield Item)，交给pipelin 阅读全文

posted @ 2019-10-27 23:25 市丸银阅读(138) 评论(0) 推荐(0) 编辑

Scrapy解析器xpath

摘要：一、使用xpath 不在scrapy框架中通过response HtmlResponse->TextResponse->self.selector.xpath(query, **kwargs)->selector(self)->from scrapy.selector import Selector 阅读全文

posted @ 2019-10-27 23:04 市丸银阅读(2925) 评论(0) 推荐(0) 编辑

Scrapy设置代理

摘要：设置代理的位置:下载中间件一、内置代理(优点：简单，缺点：只能代理一个ip) 1、源码分析 process_request(self, request, spider)在下载器执行前执行 _set_proxy方法(设置代理)->self.proxies[scheme]->self.proxies 阅读全文

posted @ 2019-10-27 22:15 市丸银阅读(2590) 评论(0) 推荐(0) 编辑

市丸银

知行合一

公告