2019 年 5月 23 日随笔档案 - 海纳百川_有容乃大

2019年5月23日

Scrapy 下载文件和图片

摘要：我们学习了从网页中爬取信息的方法，这只是爬虫最典型的一种应用，除此之外，下载文件也是实际应用中很常见的一种需求，例如使用爬虫爬取网站中的图片、视频、WORD文档、PDF文件、压缩包等。 1、FilesPipeline 和 ImagesPipeline Scrapy 框架内部提供了两个 Item Pi 阅读全文

posted @ 2019-05-23 11:33 海纳百川_有容乃大阅读(311) 评论(0) 推荐(0) 编辑

Scrapy 使用 LinkExtractor 提取链接和使用 Exporter 导出数据

摘要：在爬取一个网站时，想要爬取的数据通常分布到多个页面中，每个页面包含一部分数据以及其他页面的链接，提取链接有使用 Selector 和使用 Linkextractor 两种方法。 1、使用Selector 因为链接也是页面中的数据，所以可以使用与提取数据相同的方法进行提取，在提取少量或（几个）链接或提阅读全文

posted @ 2019-05-23 10:00 海纳百川_有容乃大阅读(305) 评论(0) 推荐(0) 编辑

Scrapy 下载文件和图片

Scrapy 使用 LinkExtractor 提取链接和使用 Exporter 导出数据

导航

公告