2019年5月23日

Scrapy 下载文件和图片

摘要: 我们学习了从网页中爬取信息的方法,这只是爬虫最典型的一种应用,除此之外,下载文件也是实际应用中很常见的一种需求,例如使用爬虫爬取网站中的图片、视频、WORD文档、PDF文件、压缩包等。 1、FilesPipeline 和 ImagesPipeline Scrapy 框架内部提供了两个 Item Pi 阅读全文

posted @ 2019-05-23 11:33 海纳百川_有容乃大 阅读(311) 评论(0) 推荐(0) 编辑

Scrapy 使用 LinkExtractor 提取链接和使用 Exporter 导出数据

摘要: 在爬取一个网站时,想要爬取的数据通常分布到多个页面中,每个页面包含一部分数据以及其他页面的链接,提取链接有使用 Selector 和使用 Linkextractor 两种方法。 1、使用Selector 因为链接也是页面中的数据,所以可以使用与提取数据相同的方法进行提取,在提取少量或(几个)链接或提 阅读全文

posted @ 2019-05-23 10:00 海纳百川_有容乃大 阅读(305) 评论(0) 推荐(0) 编辑

导航