2012 年 12月 25 日随笔档案 - Heisenbug

2012年12月25日

摘要：转：http://www.cnblogs.com/huangxincheng/archive/2012/11/04/2754059.html第一篇我们做了一个简单的页面广度优先来抓取url，很显然缺点有很多，第一：数据结构都是基于内存的，第二：单线程抓取速度太慢，在实际开发中肯定不会这么做的，起码得要有序列化到硬盘的机制，对于整个爬虫架构来说，构建好爬虫队列相当重要。先上一幅我自己构思的架构图，不是很完善，算是一个雏形吧。一：TODO队列和Visited集合在众多的nosql数据库中，mongodb还是很不错的，这里也就选择它了，做集群，做分片轻而易举。二：中央处理器群架，斗殴都是... 阅读全文

posted @ 2012-12-25 11:46 Heisenbug 阅读(143) 评论(0) 推荐(0) 编辑

公告