2012 年 11月 4 日随笔档案 - 一线码农

2012年11月4日

摘要：第一篇我们做了一个简单的页面广度优先来抓取url，很显然缺点有很多，第一：数据结构都是基于内存的，第二：单线程抓取速度太慢，在实际开发中肯定不会这么做的，起码得要有序列化到硬盘的机制，对于整个爬虫架构来说，构建好爬虫队列相当重要。先上一幅我自己构思的架构图，不是很完善，算是一个雏形吧。一：TODO队列和Visited集合在众多的nosql数据库中，mongodb还是很不错的，这里也就选择它了，做集群，做分片轻而易举。二：中央处理器群架，斗殴都是有带头的，那中央处理器就可以干这样的事情，它的任务很简单，第一：启动时，根据我们定义好的规则将种子页面分发到各个执行服务器。第... 阅读全文

posted @ 2012-11-04 18:51 一线码农阅读(9902) 评论(12) 推荐(12)

公告