摘要: 一、首先想到的是for循环,单线程爬取每个url,但是如果有url出现了问题,后面的url就得等,性能低。 二、我们考虑线程池的问题,下面我们定义了线程池里面最多10个任务,也就是说最多同一时间只能有10个爬行任务,这样的话就是自己干自己的互相不影响,加上主线程的话是n+1个线程,缺点也很明显,耗时 阅读全文
posted @ 2017-12-04 22:33 Charles.L 阅读(1140) 评论(0) 推荐(0) 编辑
摘要: Link Extractors Link Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象。 Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extr 阅读全文
posted @ 2017-12-04 11:25 Charles.L 阅读(7684) 评论(0) 推荐(0) 编辑