摘要: 当 Item 在 Spider 中被收集之后,它将会被传递到 Item Pipeline,一些组件会按照一定的顺序执行对 Item 的处理。 每个 item pipeline 组件(有时也称之为“Item Pipeline”)是实现了简单方法的 Python 类。他们接收到 Item 并通过它执行一 阅读全文
posted @ 2016-09-14 15:15 sufei 阅读(1040) 评论(0) 推荐(0) 编辑
摘要: Scrapy 终端是一个交互终端,可以在未启动 spider 的情况下尝试及调试你的爬取代码。其本意是用来测试提取数据的代码,不过可以将其作为正常的 Python 终端,在上面测试任何 Python 代码。 该终端是用来测试 XPath 或 CSS 表达式,查看他们的工作方式及从爬取的网页中提取的数 阅读全文
posted @ 2016-09-14 14:52 sufei 阅读(1424) 评论(0) 推荐(0) 编辑
摘要: Item Loaders 提供了一种便捷的方式填充抓取到的:Items。虽然 Items 可以使用自带的类字典形式的 API 填充,但是 Item Loaders 提供了更便捷的 API,可以分析原始数据并对 Item 进行填充。 Items 提供保存抓取数据的容器,而 Item Loaders 提 阅读全文
posted @ 2016-09-14 14:09 sufei 阅读(1557) 评论(0) 推荐(0) 编辑
摘要: 当抓取网页时,常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的: BeautifulSoup lxml Scrapy 提取数据有自己的一套机制。它们被称作选择器(seletors),因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML 文件中的某个部分。 构造选 阅读全文
posted @ 2016-09-14 12:37 sufei 阅读(34400) 评论(0) 推荐(2) 编辑
摘要: Spider 类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。Spider就是定义爬取的动作以及分析某个网页(或者有些网页)的地方。 对 spider 来说,爬取的循环类似下文: 1. 以初始的 URL 初始化 Requ 阅读全文
posted @ 2016-09-13 12:22 sufei 阅读(895) 评论(0) 推荐(0) 编辑
摘要: Item 对象是种简单的容器,保存了爬取到得数据。其提供了类似于词典(dictionary-like)的API以及用于声明可用字段的简单语法。 声明Item 注:与 Django Models 很类似,不过没有那么多不同的字段类型(Field type)。 Item字段(Item Fields) F 阅读全文
posted @ 2016-09-09 17:19 sufei 阅读(2245) 评论(0) 推荐(0) 编辑
摘要: Scrapy 是通过 scrapy 命令行工具进行控制的。 这里我们称之为 “Scrapy tool” 以用来和子命令进行区分。对于子命令,我们称为 “command” 或者 “Scrapy commands”。 Scrapy tool 针对不同的目的提供了多个命令,每个命令支持不同的参数和选项。 阅读全文
posted @ 2016-09-09 16:56 sufei 阅读(1494) 评论(0) 推荐(0) 编辑
摘要: Python 2.7 步骤: 创建项目 该命令将会创建包含下列内容的 tutorial 目录: 这些文件分别是: scrapy.cfg: 项目的配置文件 tutorial/: 该项目的 python 模块。之后您将在此加入代码。 tutorial/items.py: 项目中的 item 文件。 tu 阅读全文
posted @ 2016-09-09 16:03 sufei 阅读(514) 评论(0) 推荐(0) 编辑
摘要: XPath as filesystem addressing The basic XPath syntax is similar to filesystem addressing. If the path starts with the slash / , then it represents an 阅读全文
posted @ 2016-09-08 16:46 sufei 阅读(200) 评论(0) 推荐(1) 编辑
摘要: Official API document: https://seleniumhq.github.io/selenium/docs/api/py/api.html Recommanded Import Style Then, you can access the classes like this: 阅读全文
posted @ 2016-09-08 16:06 sufei 阅读(1628) 评论(0) 推荐(0) 编辑