2016 年 9月 18 日随笔档案 - sufei

2016年9月18日

摘要： Scrapy 提供了方便的收集数据的机制。数据以 key/value 方式存储，值大多是计数值。该机制叫做数据收集器（Stats Collector），可以通过 Crawler API 的属性 stats来使用。无论数据收集（stats collection）开启或者关闭，数据收集器永远都是可用的阅读全文

posted @ 2016-09-18 13:58 sufei 阅读(2092) 评论(0) 推荐(0) 编辑

爬虫：Scrapy11 - Logging

摘要： Scrapy 提供了 log 功能。可以通过 scrapy.log 模块使用。当前底层实现使用了 Twisted logging，不过可能在之后会有所变化。 log 服务必须通过显式调用 scrapy.log.start() 来开启，以捕捉顶层的 Scrapy 日志消息。再次之上，每个 crawle 阅读全文

posted @ 2016-09-18 11:34 sufei 阅读(7557) 评论(1) 推荐(1) 编辑

爬虫：Scrapy10 - Link Extractors

摘要： Link Extractors 适用于从网页（scrapy.http.Response）中抽取会被 follow 的链接的对象。 Scrapy 默认提供 2 种可用的 Link Extractor，但你可以通过实现一个简单的接口创建自己制定的 Link Extractor 来满足需求。Scrapy 阅读全文

posted @ 2016-09-18 11:20 sufei 阅读(3587) 评论(0) 推荐(1) 编辑

爬虫：Scrapy9 - Feed exports

摘要：实现爬虫时最经常提到的需求就是能合适的保存爬取到的数据，或者说，生成一个带有爬取数据的“输出文件”（通常叫“输出 feed”），来供其它系统使用。 Scrapy 自带了 Feed 输出，并且支持多种序列化格式（serialization format）及存储方式（storage backends）。阅读全文

posted @ 2016-09-18 11:07 sufei 阅读(2460) 评论(0) 推荐(0) 编辑

公告