摘要: 最近,一直在做网络爬虫相关的东西。 看了一下开源C++写的larbin爬虫,仔细阅读了里面的设计思想和一些关键技术的实现。1、larbin的URL去重用的很高效的bloom filter算法; 2、DNS处理,使用的adns异步的开源组件; 3、对于url队列的处理,则是用部分缓存到内存,部分写入文件的策略。 4、larbin对文件的相关操作做了很多工作 5、在larbin里有连接池,通过创建套接字,向目标站点发送HTTP协议中GET方法,获取内容,再解析header之类的东西 6、大量描述字,通过poll方法进行I/O复用,很高效 7、larbin可配置性很强 8、作者所使用的大量数据结构. 阅读全文
posted @ 2012-03-16 23:53 糖拌咸鱼 阅读(16419) 评论(10) 推荐(3) 编辑