摘要: 以前爬的数据量都有点少了,所以现在写个爬房天下全站数据爬虫来,用redis进行URL的去重处理,采用mysql储存清洗过后房产数据,采用线程池来进行调度,进行多线程爬取 后面会用scrapy框架做分布式集群来爬取数据,做完分布式爬虫就差不多了,后面就是scrapy深入研究和数据系统开发的学习 下面是 阅读全文
posted @ 2017-10-29 16:54 双鱼男-huangsh 阅读(4228) 评论(1) 推荐(0) 编辑