Nutch 0.8在windows下使用的说明
2006-08-31 01:22 cppguy 阅读(668) 评论(0) 编辑 收藏 举报Nutch 0.8在2006.7.25在其官方网站上正式发布,此版本在以前的基础上做了很大的改进.因此在进行爬行的时候不能完全按照各版本的方法进行.本人已经成功安装和使用,具体使用如下:
辅助软件
1、Java 1.4.x ;
2、Apache's Tomcat 4.x ;
3、Cygwin ;
使用
1、新建环境变量或添加环境变量新值
PATH= F:\nutch-0.8\bin; (NUTCH-0.8的安装路径)
JAVA_HOME = C:\Program Files\Java\jdk1.5.0_07 (JDK的安装路径)
NUTCH_HOME= F:\cygwin (On windows, using cygwin the default NUTCH_HOME is at \\cygdrive\)
(*环境变量值依据读者具体情况设定)
2、运行crawl命令
①在nutch-0.8的安装目录下新建一个文件夹,例如取名search。然后在此文件夹内建立一个文本文件命名为urls.txt。该文件的内容为所要进行crawl的网站地址,例http://www.163.com/。(以前版本不需先建立一个文件夹,直接建文本文件就行。但在0.8版本里不先建立文件夹crawl命令就会出错)。
②修改nutch-0.8\conf\crawl-urlfilter.txt,把文件中的MY.DOMAIN.NAME全部替换成163.com 。
③修改nutch-0.8\conf\nutch-site.xml,
<property>
<name>http.robots.agents</name>
<value>www.163.com</value>
</property>
<property>
<name>http.agent.name</name>
<value>www.163.com</value>
<</property>
<property>
<name>http.agent.url</name>
<value>www.163.com</value>
</property>
④在cygwin中运行命令:
bin/nutch crawl search -dir f:/nutch-0.8/crawled -depth 3 -topN 200
3:将tomcat\webapps下的Root文件夹删除.
4、把nutch-0.8文件夹下的Nutch-0.8.war文件解压到Tomcat\webapps中。并将其名改正为ROOT。
在Tomcat\conf\Catalina\ localhost下新建立一个xml文件,该文件名跟你nutch文件夹名一样。输入内容: <Context path="" debug="5" privileged="true" docBase="nutch-0.8"/>。
5、进入Tomcat\webapps\ROOT\WEB-INF\classes文件夹,修改该目录下的nutch-site.xml文件。修改如下:
<nutch-conf>
<property>
<name>searcher.dir</name>
<value>your_crawled_folder_here</value>
</property>
</nutch-conf>
(*在以前版本中不需要此操作)
7、为了进行中文搜索需修改tomcat/conf/下的server.xml文件中的CONNETOR部分,修改如下:
<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" debug="0" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" useBodyEncodingForURI="true" />
8、复制nutch-0.8\crawled\segments文件夹到..\tomcat5\bin\下。
9、进入Tomcat\bin文件夹:双击startup.bat批处理文件让它运行。
7、为了进行中文搜索需修改tomcat/conf/下的server.xml文件中的CONNETOR部分,修改如下:
<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" debug="0" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" useBodyEncodingForURI="true" />
10、打开浏览器。输入http://localhost:8080
11、在搜索栏中输入搜索关键词“体育”(共有168项结果)。