随笔分类 - 爬虫
摘要:概述 1 发起请求:通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,然后等待服务器响应。 2 获取响应内容:如果服务器能正常响应,我们会得到一个Response,Response的内容便是所要获取的内容,类型可能有HTML、Json字符串,二进制数
阅读全文
摘要:Scrapy 内部集成了Twisted异步网络框架,可以加快我们的下载速度。 未使用scrapy框架之前的爬虫 使用之后 1 爬虫中起始的url构造成request对象 爬虫中间件 引擎 调度器 2 调度器把request 引擎 下载中间件 下载器 3 下载器给互联网发送请求,获取response响
阅读全文