2012年5月31日

heritrix总结------HostnameQueueAssignmentPolicy改写

摘要: Heritrix多线程默认是根据域名来分下载队列,但是这种策略非常不符合垂直搜索的要求,故需要引入ELFHash来改进分配策略。指定的链接队列中以host作为key值进行hash,这样使得即使配置了100个线程,也只有一个线程在运行,因为heritrix默认每次从一个队列中取出来一个url进行抓取,等抓取结束之后再取另外一个。因为指定路径基本上都是在一个host里面,这样就会变成单线程爬取,非常的慢。无奈之下继续改写,这次是修改HostnameQueueAssignmentPolicy,也是系统默认的。其中主要是getClassKey这个函数,是生成队列的key值得,使用ELFHash哈希算法 阅读全文

posted @ 2012-05-31 23:31 linzuxin 阅读(178) 评论(0) 推荐(0) 编辑

利用 Heritrix 构建特定站点爬虫

摘要: 本文由浅入深,详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展,介绍如何实现只抓取特定网站的页面。通过本文,读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行,能够从零开始构建特定站点的专有爬虫,从而为网站增加全文检索服务。背景随着网站内容的增加,为其添加搜索功能是一个常见的需求,搜索引擎也已成为互联网最重要的应用之一。你是否觉得普通的数据库检索已经不能满足你的查询需求了呢?是否希望花最小的代价为你的网站建立一个像 Google、百度那样的全文搜索引擎?是否希望创建自己专有的搜索引擎而不是想尽办法 SEO(Search Engine 阅读全文

posted @ 2012-05-31 09:06 linzuxin 阅读(151) 评论(0) 推荐(0) 编辑

导航