摘要: Spider 类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。Spider就是定义爬取的动作以及分析某个网页(或者有些网页)的地方。 对 spider 来说,爬取的循环类似下文: 1. 以初始的 URL 初始化 Requ 阅读全文
posted @ 2016-09-13 12:22 sufei 阅读(905) 评论(0) 推荐(0) 编辑