2016 年 9月 14 日随笔档案 - sufei

2016年9月14日

摘要：当 Item 在 Spider 中被收集之后，它将会被传递到 Item Pipeline，一些组件会按照一定的顺序执行对 Item 的处理。每个 item pipeline 组件（有时也称之为“Item Pipeline”）是实现了简单方法的 Python 类。他们接收到 Item 并通过它执行一阅读全文

posted @ 2016-09-14 15:15 sufei 阅读(1040) 评论(0) 推荐(0) 编辑

爬虫：Scrapy7 - Scrapy终端(Scrapy shell)

摘要： Scrapy 终端是一个交互终端，可以在未启动 spider 的情况下尝试及调试你的爬取代码。其本意是用来测试提取数据的代码，不过可以将其作为正常的 Python 终端，在上面测试任何 Python 代码。该终端是用来测试 XPath 或 CSS 表达式，查看他们的工作方式及从爬取的网页中提取的数阅读全文

posted @ 2016-09-14 14:52 sufei 阅读(1425) 评论(0) 推荐(0) 编辑

爬虫：Scrapy6 - Item Loaders

摘要： Item Loaders 提供了一种便捷的方式填充抓取到的：Items。虽然 Items 可以使用自带的类字典形式的 API 填充，但是 Item Loaders 提供了更便捷的 API，可以分析原始数据并对 Item 进行填充。 Items 提供保存抓取数据的容器，而 Item Loaders 提阅读全文

posted @ 2016-09-14 14:09 sufei 阅读(1557) 评论(0) 推荐(0) 编辑

爬虫：Scrapy5 - 选择器Selectors

摘要：当抓取网页时，常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的： BeautifulSoup lxml Scrapy 提取数据有自己的一套机制。它们被称作选择器(seletors)，因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML 文件中的某个部分。构造选阅读全文

posted @ 2016-09-14 12:37 sufei 阅读(34407) 评论(0) 推荐(2) 编辑

公告