sufei - 博客园

2016年9月14日

摘要：当 Item 在 Spider 中被收集之后，它将会被传递到 Item Pipeline，一些组件会按照一定的顺序执行对 Item 的处理。每个 item pipeline 组件（有时也称之为“Item Pipeline”）是实现了简单方法的 Python 类。他们接收到 Item 并通过它执行一阅读全文

posted @ 2016-09-14 15:15 sufei 阅读(1040) 评论(0) 推荐(0) 编辑

爬虫：Scrapy7 - Scrapy终端(Scrapy shell)

摘要： Scrapy 终端是一个交互终端，可以在未启动 spider 的情况下尝试及调试你的爬取代码。其本意是用来测试提取数据的代码，不过可以将其作为正常的 Python 终端，在上面测试任何 Python 代码。该终端是用来测试 XPath 或 CSS 表达式，查看他们的工作方式及从爬取的网页中提取的数阅读全文

posted @ 2016-09-14 14:52 sufei 阅读(1434) 评论(0) 推荐(0) 编辑

爬虫：Scrapy6 - Item Loaders

摘要： Item Loaders 提供了一种便捷的方式填充抓取到的：Items。虽然 Items 可以使用自带的类字典形式的 API 填充，但是 Item Loaders 提供了更便捷的 API，可以分析原始数据并对 Item 进行填充。 Items 提供保存抓取数据的容器，而 Item Loaders 提阅读全文

posted @ 2016-09-14 14:09 sufei 阅读(1559) 评论(0) 推荐(0) 编辑

爬虫：Scrapy5 - 选择器Selectors

摘要：当抓取网页时，常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的： BeautifulSoup lxml Scrapy 提取数据有自己的一套机制。它们被称作选择器(seletors)，因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML 文件中的某个部分。构造选阅读全文

posted @ 2016-09-14 12:37 sufei 阅读(34436) 评论(0) 推荐(2) 编辑

2016年9月13日

爬虫：Scrapy4 - Spiders

摘要： Spider 类定义了如何爬取某个（或某些）网站。包括了爬取的动作（例如：是否跟进链接）以及如何从网页的内容中提取结构化数据（爬取item）。Spider就是定义爬取的动作以及分析某个网页（或者有些网页）的地方。对 spider 来说，爬取的循环类似下文： 1. 以初始的 URL 初始化 Requ 阅读全文

posted @ 2016-09-13 12:22 sufei 阅读(909) 评论(0) 推荐(0) 编辑

2016年9月9日

爬虫：Scrapy3 - Items

摘要： Item 对象是种简单的容器，保存了爬取到得数据。其提供了类似于词典(dictionary-like)的API以及用于声明可用字段的简单语法。声明Item 注：与 Django Models 很类似，不过没有那么多不同的字段类型（Field type）。 Item字段（Item Fields） F 阅读全文

posted @ 2016-09-09 17:19 sufei 阅读(2256) 评论(0) 推荐(0) 编辑

爬虫：Scrapy2 - 命令行工具

摘要： Scrapy 是通过 scrapy 命令行工具进行控制的。这里我们称之为 “Scrapy tool” 以用来和子命令进行区分。对于子命令，我们称为 “command” 或者 “Scrapy commands”。 Scrapy tool 针对不同的目的提供了多个命令，每个命令支持不同的参数和选项。阅读全文

posted @ 2016-09-09 16:56 sufei 阅读(1501) 评论(0) 推荐(0) 编辑

爬虫：Scrapy1

摘要： Python 2.7 步骤：创建项目该命令将会创建包含下列内容的 tutorial 目录: 这些文件分别是: scrapy.cfg: 项目的配置文件 tutorial/: 该项目的 python 模块。之后您将在此加入代码。 tutorial/items.py: 项目中的 item 文件。 tu 阅读全文

posted @ 2016-09-09 16:03 sufei 阅读(516) 评论(0) 推荐(0) 编辑

2016年9月8日

XPATH

摘要： XPath as filesystem addressing The basic XPath syntax is similar to filesystem addressing. If the path starts with the slash / , then it represents an 阅读全文

posted @ 2016-09-08 16:46 sufei 阅读(203) 评论(0) 推荐(1) 编辑

Selenium - WebDriver API

摘要： Official API document: https://seleniumhq.github.io/selenium/docs/api/py/api.html Recommanded Import Style Then, you can access the classes like this: 阅读全文

posted @ 2016-09-08 16:06 sufei 阅读(1637) 评论(0) 推荐(0) 编辑

公告