代码改变世界

Nutch最近的邮件列表

2006-10-12 17:38  cppguy  阅读(447)  评论(0编辑  收藏  举报

一:

问:我在linux(FC3)上安装了Nutch 0.8.1,虚拟机环境是:java 1.5.0_07.当我运行crawl命令的时候,出现了以下错误:

2006-10-11 15:39:16,234 FATAL api.RobotRulesParser - Agent we advertise
(null) not listed first in 'http.robots.agents' property

and it says   "fetcher.Fetcher - fetch of"   the site  "failed with:
java.lang.NullPointerException"

有人能帮我么?

答:你应该设置"http.agent.name"属性在/conf/nutch-default.xml.

问:谢谢你的回复,但是我应该设置什么值呢?

答:这个属性标记的是你的代理名,这个代理名称在你的Nutch爬行网页的时候标识你本身组织,你可以设置为"foo/bar,当然设置一个自己特有的标识名是很推荐的