2017 年 12月 4 日随笔档案 - Charles.L

2017年12月4日

摘要：一、首先想到的是for循环，单线程爬取每个url，但是如果有url出现了问题，后面的url就得等，性能低。二、我们考虑线程池的问题，下面我们定义了线程池里面最多10个任务，也就是说最多同一时间只能有10个爬行任务，这样的话就是自己干自己的互相不影响，加上主线程的话是n+1个线程，缺点也很明显，耗时阅读全文

posted @ 2017-12-04 22:33 Charles.L 阅读(1140) 评论(0) 推荐(0) 编辑

python爬虫scrapy之rules的基本使用

摘要： Link Extractors Link Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象｡ Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extr 阅读全文

posted @ 2017-12-04 11:25 Charles.L 阅读(7684) 评论(0) 推荐(0) 编辑

Charles.L

人生苦短

公告