代码改变世界

Nutch 0.8在windows下使用的说明

2006-08-31 01:22  cppguy  阅读(665)  评论(0编辑  收藏  举报

Nutch 0.8在2006.7.25在其官方网站上正式发布,此版本在以前的基础上做了很大的改进.因此在进行爬行的时候不能完全按照各版本的方法进行.本人已经成功安装和使用,具体使用如下:

 

辅助软件
1、Java 1.4.x ;
2、Apache's Tomcat 4.x ;
3、Cygwin ;

使用

1、新建环境变量或添加环境变量新值
PATH= F:\nutch-0.8\bin;  (NUTCH-0.8的安装路径)
JAVA_HOME = C:\Program Files\Java\jdk1.5.0_07 (JDK的安装路径)
NUTCH_HOME= F:\cygwin          (On windows, using cygwin the default NUTCH_HOME is at \\cygdrive\)
(*环境变量值依据读者具体情况设定)

2、运行crawl命令
①在nutch-0.8的安装目录下新建一个文件夹,例如取名search。然后在此文件夹内建立一个文本文件命名为urls.txt。该文件的内容为所要进行crawl的网站地址,例http://www.163.com/。(以前版本不需先建立一个文件夹,直接建文本文件就行。但在0.8版本里不先建立文件夹crawl命令就会出错)
②修改nutch-0.8\conf\crawl-urlfilter.txt,把文件中的MY.DOMAIN.NAME全部替换成163.com 。

③修改nutch-0.8\conf\nutch-site.xml,
      <property>
      <name>http.robots.agents</name>
      <value>www.163.com</value>  
</property>
<property>
     <name>http.agent.name</name>
     <value>www.163.com</value>
     <</property>
<property>
  <name>http.agent.url</name>
  <value>www.163.com</value>
</property>

在cygwin中运行命令:
bin/nutch crawl search -dir f:/nutch-0.8/crawled -depth 3 -topN 200

3:将tomcat\webapps下的Root文件夹删除.

4、把nutch-0.8文件夹下的Nutch-0.8.war文件解压到Tomcat\webapps中。并将其名改正为ROOT。
在Tomcat\conf\Catalina\ localhost下新建立一个xml文件,该文件名跟你nutch文件夹名一样。输入内容: <Context path="" debug="5" privileged="true" docBase="nutch-0.8"/>。
5、进入Tomcat\webapps\ROOT\WEB-INF\classes文件夹,修改该目录下的nutch-site.xml文件。修改如下:

<nutch-conf>

<property>

<name>searcher.dir</name>

<value>your_crawled_folder_here</value>

</property>

</nutch-conf>

(*在以前版本中不需要此操作)

7、为了进行中文搜索需修改tomcat/conf/下的server.xml文件中的CONNETOR部分,修改如下:
<Connector port="8080"    maxThreads="150" minSpareThreads="25" maxSpareThreads="75"    enableLookups="false" redirectPort="8443" acceptCount="100"    debug="0" connectionTimeout="20000"         disableUploadTimeout="true"        URIEncoding="UTF-8" useBodyEncodingForURI="true" />

8、复制nutch-0.8\crawled\segments文件夹到..\tomcat5\bin\下。

9、进入Tomcat\bin文件夹:双击startup.bat批处理文件让它运行。

7、为了进行中文搜索需修改tomcat/conf/下的server.xml文件中的CONNETOR部分,修改如下:
<Connector port="8080"    maxThreads="150" minSpareThreads="25" maxSpareThreads="75"    enableLookups="false" redirectPort="8443" acceptCount="100"    debug="0" connectionTimeout="20000"         disableUploadTimeout="true"        URIEncoding="UTF-8" useBodyEncodingForURI="true" />

10、打开浏览器。输入http://localhost:8080
11、在搜索栏中输入搜索关键词“体育”(共有168项结果)。