摘要: 本文描述的是Heritrix1.14.x的行为,但大部分也适用于Heritrix2.x和Heritrix3.x。概览BdbFrontier有一系列可以扩展的设置(在主配置文件中可以配置),它使用“budgeting”处理器来给它内部的队列分配关注度,因此,单独的主机(应该是网络上要抓取的主机)和队列是一一对应的。在这些配置下,BdbFrontier可能会定期交替队列使队列进入“活动”的状态或者移出“活动”的状态。一个队列处于“活动”状态时,这个队列适合把它的URIs提供给已经准备好的工作线程。当正在运行“活动平衡“被耗尽时,这个队列将被做出停用的决定,当URIs被认为具有较高的”成本“时,&q 阅读全文
posted @ 2013-04-19 16:51 potato1895 阅读(155) 评论(0) 推荐(0) 编辑
摘要: <?xml version="1.0" encoding="UTF-8"?><!-- HERITRIX 3 抓取工作配置文件 This is a relatively minimal configuration suitable for many crawls. 这是一个相对来说最简化的配置,它可以适用于大部分抓取。 Commented-out beans and properties are provided as an example; values shown in comments reflect the actual defa 阅读全文
posted @ 2013-04-19 00:38 potato1895 阅读(1241) 评论(0) 推荐(0) 编辑
摘要: Heritrix交流群:262749631,欢迎大家一起参与交流第一步:安装相关 软件 jdk, eclipse, git,maven,eclipse的maven插件 这几个软件安装最新版的,安装教程可以百度一下.第二步:启动eclipse,初始化workspace.第三步:拷贝GIT仓库中的heritrix到本地的workspace目录 在终端中 cd 进入 workspace 然后用这个命令: git clone git://github.com/internetarchive/heritrix3.git 此时的hertirx版本已经是3.1.2 了第四步:把Heritrix导入到ecli 阅读全文
posted @ 2013-04-16 20:53 potato1895 阅读(831) 评论(0) 推荐(0) 编辑