摘要:
考虑下面的 spider: 简单地说,该 spider 分析了两个包含 item 的页面(start_urls)。Item 有详情页面,所以我们使用 Request 的 meta 功能来传递已经部分获取的 item。 Parse 命令 检查 spider 输出的最基本的方法是使用 parse 命令。 阅读全文
摘要:
Scrapy 提供了内置的 Telnet 终端,以供检查,控制 Scrapy 运行的进程。Telnet 仅仅是一个运行在 Scrapy 进程中的普通 Python 终端。因此你可以在其中做任何是。 Telnet 终端是一个自带的 Scrapy 扩展。该扩展默认为启用,不过你也可以关闭。 如何访问 T 阅读全文
摘要:
虽然 Python 通过 smtplib 库使得发送 email 变得非常简单,Scrapy 仍然提供了自己的实现。该功能十分易用,同时由于采用了 Twisted 非阻塞式(non-blocking)IO,其避免了对爬虫的非阻塞式 IO 的影响。另外,其也提供了简单的 API 来发送附件。通过一些 阅读全文