摘要: 摘要:本文介绍了Scrapy的基础爬取流程,也是最重要的部分 Scrapy的爬取流程 Scrapy的爬取流程可以概括为一个方程式:UR2IM,其含义如下图所示 URL:Scrapy的运行就从那个你想要爬取的网站地址开始,当你想要验证用xpath或其他解析器来解析这个网页时,可以使用Scrapy sh 阅读全文
posted @ 2016-04-18 17:32 kylinlin 阅读(5162) 评论(1) 推荐(1) 编辑
摘要: 摘要:根据Excel文件配置运行多个爬虫 很多时候,我们都需要为每一个单独的网站编写一个爬虫,但有一些情况是你要爬取的几个网站的唯一不同之处在于Xpath表达式不同,此时要分别为每一个网站编写一个爬虫就显得徒劳了,其实可以只使用一个spider就爬取这些相似的网站。 首先创建一个名为generic的 阅读全文
posted @ 2016-04-18 14:40 kylinlin 阅读(3806) 评论(2) 推荐(0) 编辑