摘要: CrawlSpider实现的全站数据的爬取 新建一个工程 cd 工程 创建爬虫文件:scrapy genspider t crawl spiderName www.xxx.com 连接提取器LinkExtractor 可以根据指定的规则对指定的连接进行提取 提取的规则就是构造方法中的allow(‘正 阅读全文
posted @ 2019-10-15 23:14 染指未来 阅读(346) 评论(0) 推荐(0) 编辑
摘要: 一丶scrapy的图片数据爬取(流数据的爬取) ​ scrapy中封装好了一个管道类(ImagesPipeline),基于该管道类可以实现图片资源的请求和持久化存储 编码流程: 爬虫文件中解析出图片的地址 将图片地址封装到item中且提交给管道 管道文件中自定义一个管道类(父类:ImagesPipe 阅读全文
posted @ 2019-10-15 23:13 染指未来 阅读(275) 评论(0) 推荐(0) 编辑