摘要: 位置:middlewares.py文件中 一、爬虫中间件 二、下载中间件 1、位置:引擎和下载器之间 2、作用:批量拦截到整个工程中所有的请求和响应 3、拦截请求: UA伪装:写在process_request方法中 # UA池 user_agent_list = [ "Mozilla/5.0 (W 阅读全文
posted @ 2020-05-29 20:15 南啾 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 基于scrapy爬取字符串类型的数据和爬取图片类型的数据区别? 字符串:只需要基于xpath进行解析且提交管道进行持久化存储 图片:xpath解析出图片src的属性值,单独的对图片地址发起请求获取图片二进制类型的数据 ImagesPipeline: 只需要将img的src的属性值进行解析,提交到管道 阅读全文
posted @ 2020-05-29 18:06 南啾 阅读(695) 评论(0) 推荐(0) 编辑
摘要: 一、引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心)二、调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的 阅读全文
posted @ 2020-05-29 12:17 南啾 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 全站数据爬取就是将网站中某板块下的全部页码对应的页面进行爬取解析 需求:爬取校花网中照片的名称 实现方式: 将所有页面的url添加到start_url列表中(不推荐) 自行手动的进行请求发送(推荐) 手动请求发送 yield scrapy.Request(url=new_url,callback=s 阅读全文
posted @ 2020-05-29 12:02 南啾 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 基于终端指令: 要求:只可以将parse方法的返回值存储到本地的文本文件中 注意:持久批存储对应的文本文件类型只可以为:('csv', 'pickle', 'json', 'xml', 'jl', 'jsonlines', 'marshal') 指令:scrapy crawl xxx -o file 阅读全文
posted @ 2020-05-29 11:18 南啾 阅读(116) 评论(0) 推荐(0) 编辑