摘要: 下载文件是一种很常见的需求,例如当你在使用爬虫爬取网站中的图片、视频、word、pdf、压缩包等的时候 scrapy中提供了FilesPipeline和ImagesPipeline,专门用来下载文件和图片: 我们其实可以把这两个item pipeline看成是特殊的下载器,用户使用的时候只需要通过i 阅读全文
posted @ 2019-10-19 13:39 tulintao 阅读(2008) 评论(0) 推荐(0) 编辑
摘要: le = LinkExtractor(restrict_css='ul.pager li.next') links = le.extract_links(response) 使用LinkExtractor的过程: 导入LinkExtractor,它是在scrapy中linkextractors中 创 阅读全文
posted @ 2019-10-19 10:25 tulintao 阅读(1294) 评论(0) 推荐(0) 编辑
摘要: 利用item pipeline可以实现将数据存入数据库的操作,可以创建一个关于数据库的item pipeline 需要在类属性中定义两个常量 DB_URL:数据库的URL地址 DB_NAME:数据库的名字 在Spider爬取的整个过程中,数据库的连接和关闭操作只需要进行一次就可以,应该在开始处理之前 阅读全文
posted @ 2019-10-19 09:00 tulintao 阅读(841) 评论(0) 推荐(0) 编辑