nutch导入ide nutch-1.3

nutch 1.4后参考如下:
http://peigang.iteye.com/blog/1563288


1. 前提 安装cygwin完整版,SVN 2. 下载 通过SVN下载的方法: 地址:http://svn.apache.org/repos/asf/nutch/branches/branch-1.5

http://archive.apache.org/dist/nutch/

下载,解压:


3. 导入eclipse 。 方法一: 从bin与src中共同生成项目 [代码看起来整齐,但是无法ant+build.xml编译] 参考源:http://blog.csdn.net/neo_2011/article/details/6943622 步骤: 1) 在Eclipse新建一个Java Project,nutch-1.22) 将apache-nutch-1.2-src.zip源码包内/src/java文件夹下的内容复制到新建工程目录下的src文件夹; 3) 将apache-nutch-1.2-bin.zip包中nutch-1.2目录下的lib、plugins、conf三个文件夹复制到新建工程的根目录下(与src同级); 4) 右键工程properties,切换到"Libraries"选择"Add ClassFolder..."按钮,从列表中选择"conf",将 conf加入到classpath中; 5) 右键工程properties,切换到"Libraries"选择"Add ExternalJARs "按钮,将lib文件夹中的所有jar加入到工程中。这两步完成后看代码应该不会有编译错误了。 方法二: 从apache-nutch-1.2-src生成项目 参考源:http://blog.csdn.net/chlstar/article/details/7220649 http://wiki.apache.org/nutch/RunNutchInEclipse1.0 步骤: 1) File-----new----Java project------create project from existing source--- D:\TDTCrawler\download\apache-nutch-1.2-src\apache-nutch-1.2 2) Next 3) 将conf目录添加到classpath(右击项目选择properties,然后选择JavaBuild Path,然后在右边框中选择Libraries,单击AddClass Folder...,选择conf目录) 4) 选择Orderand Export,找到刚才导入的conf目录,把它移动到顶部 5) 单击"Source"设置defaultoutput folder 为"Nutch/bin/tmp_build". 6) 修改nutch-site.xml.template为nutch-site.xml <property> <name>http.agent.name</name> <value>test</value> </property> 7) crawl-urlfilter.txt.template改为crawl-urlfilter.txt #accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ #skip everything else -. 改为: #accept hosts in MY.DOMAIN.NAME +. #skip everything else -. 8) 修改conf目录下的nutch-default.xml 将"plugin.folders"属性的值改为"./src/plugin"(如果不改会报错) crawl urls -dir crawl -depth 2 -threads 3 -topN 10 以上两种方法,在jdk1.7.0_06,europa测试通过 NUTCH的编译 对象:方法二中所生成的项目 参考网址:http://www.cnblogs.com/streamhope/archive/2011/07/28/2119345.html 1) 进入nutch-1.2-src的根目录下
2) Nutch-default.xml中 <name>plugin.folders</name> <value>plugins</value>为根目录下的plugins
3) Ant 生成build\nutch-1.2.job Ant jar 生成build\nutch-1.2.jar 4) 用这两个文件覆盖D:\TDTCrawler\download\apache-nutch-1.2-bin\nutch-1.2 bin文件下相同的文件
5) 应该把src下面的lib覆盖bin的lib
6) 将src下的crawl-urlfilter.txt,nutch-site.xml,nutch-default.xml覆盖bin下相应文件
7) 将ant生成的build文件夹下的parse-html 覆盖bin下相应的文件 (与这个类似 : http://www.cnblogs.com/i80386/p/3956766.html) 修改了crawl类中的
for (int i = 0; i < 100; i++) { System.out.println("tianditu ltd"); } 编译的代码被打印出来 编译通过 4.方法二 Ant build.xml注意事项 1. Ant 生成nutch-1.2.job 包引用异常,4 应该把src下面的lib覆盖bin的lib 2. Ant jar 生成nutch-1.2.jar 3. 将src下的crawl-urlfilter.txt,nutch-site.xml,nutch-default.xml覆盖bin下相应文件 4. 将ant生成的build文件夹下的parse-html 覆盖bin下相应的文件 5. 修改site-default.xml下plugin.folders 属性值由 ./src/plugin 改为./plugins 如果不修改将报 加载插件失败异常 21 相同的

 

posted on 2013-02-19 13:43  雨渐渐  阅读(370)  评论(0编辑  收藏  举报

导航