heritrix总结------HostnameQueueAssignmentPolicy改写
摘要:
Heritrix多线程默认是根据域名来分下载队列,但是这种策略非常不符合垂直搜索的要求,故需要引入ELFHash来改进分配策略。指定的链接队列中以host作为key值进行hash,这样使得即使配置了100个线程,也只有一个线程在运行,因为heritrix默认每次从一个队列中取出来一个url进行抓取,等抓取结束之后再取另外一个。因为指定路径基本上都是在一个host里面,这样就会变成单线程爬取,非常的慢。无奈之下继续改写,这次是修改HostnameQueueAssignmentPolicy,也是系统默认的。其中主要是getClassKey这个函数,是生成队列的key值得,使用ELFHash哈希算法 阅读全文
posted @ 2012-05-31 23:31 linzuxin 阅读(178) 评论(0) 推荐(0) 编辑