Nutch最近的邮件列表
2006-10-12 17:38 cppguy 阅读(447) 评论(0) 编辑 收藏 举报一:
问:我在linux(FC3)上安装了Nutch 0.8.1,虚拟机环境是:java 1.5.0_07.当我运行crawl命令的时候,出现了以下错误:
2006-10-11 15:39:16,234 FATAL api.RobotRulesParser - Agent we advertise
(null) not listed first in 'http.robots.agents' property
and it says "fetcher.Fetcher - fetch of" the site "failed with:
java.lang.NullPointerException"
有人能帮我么?
答:你应该设置"http.agent.name"属性在/conf/nutch-default.xml.
问:谢谢你的回复,但是我应该设置什么值呢?
答:这个属性标记的是你的代理名,这个代理名称在你的Nutch爬行网页的时候标识你本身组织,你可以设置为"foo/bar,当然设置一个自己特有的标识名是很推荐的