摘要: 往往需要爬取的网页是呈一个树状结构。比如,需要先爬取一个目录,然后再在目录中选择具体的爬取目标。而目录和具体目标之间,网页结构不同,使得我们不能使用相同的爬取策略。 从之前的经验来看,我们对scrapy进行操作是从Spider的Parse()函数作为入口。不如在parse()函数中对对目录进行操作, 阅读全文
posted @ 2016-07-21 22:20 打不死的流云 阅读(426) 评论(0) 推荐(0) 编辑