API例子:用Python驱动Firefox采集网页数据
摘要:
本文讲解怎样用Python驱动Firefox浏览器写一个简易的网页数据采集器。GooSeeker整个Python开源爬虫项目将与Scrapy(基于twisted的异步网络框架)集成,所以本例将使用Scrapy采集淘宝这种含有大量ajax代码的网页数据,但是要注意本例一个严重缺陷:用Selenium加载网页的过程发生在Spider中,破坏了Scrapy的架构原则。 阅读全文
posted @ 2016-06-30 10:08 华天清 阅读(1855) 评论(0) 推荐(0) 编辑