2019 年 10月 19 日随笔档案 - tulintao

2019年10月19日

摘要：下载文件是一种很常见的需求，例如当你在使用爬虫爬取网站中的图片、视频、word、pdf、压缩包等的时候 scrapy中提供了FilesPipeline和ImagesPipeline，专门用来下载文件和图片：我们其实可以把这两个item pipeline看成是特殊的下载器，用户使用的时候只需要通过i 阅读全文

posted @ 2019-10-19 13:39 tulintao 阅读(2008) 评论(0) 推荐(0) 编辑

scrapy中使用LinkExtractor提取链接

摘要： le = LinkExtractor(restrict_css='ul.pager li.next') links = le.extract_links(response) 使用LinkExtractor的过程：导入LinkExtractor，它是在scrapy中linkextractors中创阅读全文

posted @ 2019-10-19 10:25 tulintao 阅读(1294) 评论(0) 推荐(0) 编辑

在scrapy中将数据保存到mongodb中

摘要：利用item pipeline可以实现将数据存入数据库的操作，可以创建一个关于数据库的item pipeline 需要在类属性中定义两个常量 DB_URL：数据库的URL地址 DB_NAME：数据库的名字在Spider爬取的整个过程中，数据库的连接和关闭操作只需要进行一次就可以，应该在开始处理之前阅读全文

posted @ 2019-10-19 09:00 tulintao 阅读(841) 评论(0) 推荐(0) 编辑

tulintao

公告