2011年10月23日

Larbin源代码分析[2]global源代码分析

摘要: 在main.cc的main函数中刚开始调用了global的构造函数,global函数中有一行是parseFile,它是用于解析配置文件larbin.conf文件的。“UserAgent”: UserAgent“From”: 使用者的邮箱“startUrl”: 开始爬取的url“waitduration”: 访问同一服务器的时间间隔“proxy”: 代理服务器信息“pageConnexions”: 最大并行连接数“dnsConnexions”: DNS最大并行连接数“httpPort”: 用于使用者查看抓取信息的端口“inputPort”: 用于向labin添加url等输入信息的telnet端口 阅读全文

posted @ 2011-10-23 21:55 zhoulinhu 阅读(413) 评论(0) 推荐(0) 编辑

Larbin源代码分析[1]hashtable checker

摘要: 在larbin里判断用一个URL是否被抓取过,用的是bloomfilter算法(至少网上的人这么说),但是我感觉与《数学之美系列二十一 - 布隆过滤器(BloomFilter)》中所介绍的算法有着很大的不同,因为larbin中只是简单用了hash方法,它有点像位图法,但我的算法很一般,意见仅供参考。先看一下hashTable的类定义:class hashTable {private:ssize_t size;char *table;public:/* constructor*/hashTable(boolcreate);/* destructor */~hashTable(); /* save 阅读全文

posted @ 2011-10-23 21:42 zhoulinhu 阅读(417) 评论(0) 推荐(0) 编辑

导航