Nutch1.2二次开发详细攻略(一)【图文】------Windows平台下Cygwin环境的搭建
前言:作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料,但内容并不详尽且有错误,于是在此记录个人实战过程,纠正一些文章错误,以详细的过程展现一次简单的二次开发流程,为初学者降低门槛。但不能保证完全没有错误,如有发现希望大家指正。
本文出自 “守望者MS” 博客,谢绝转载!
目录:
1.Nutch1.2二次开发详细攻略(一)【图文】------Windows平台下Cygwin环境的搭建
2.Nutch1.2二次开发详细攻略(二)【图文】------Windows平台下Nutch1.2的搭建
3.Nutch1.2二次开发详细攻略(三)【图文】------Nutch1.2二次开发(关于界面修改)
4.Nutch1.2二次开发详细攻略(四)【图文】------Nutch1.2二次开发(关于中文分词)
一、开发环境介绍(以我个人为例):
个人开发端:windows Server 2003 + Cygwin + Eclipse3.2
二、具体步骤:
1.下载并安装Cygwin(http://cygwin.com/install.html)
<1>.安装Cygwin
点击下载好的setup.exe
选择下一步。
选择第一项Install from Internet。
选择安装目录(视个人情况而定)。下一步
选择从网上下载的Package的存放目录。下一步
如果你本机现在不是用代理上网,请默认选择第一项并点击下一步。
选择cygwin镜像下载站点,现在国内提供镜像的只有163,所以国内的用户默认选择第一项是比较好的选择。
接下来的一步是最重要,也是我要重点强调的,我初次接触Nutch,并在windows平台下安装Cygwin时,参阅网上资料说这一步应该选择全部安装,否则会很多错误,当时信以为真,为避免后面开发出现错误,于是选择下载全部package,无奈在服务器上下载了2天,都没有下载完成。最后经过实践证明,这一步执行默认的选项即可(整个安装过程只需耗费5分钟左右),没有必要全部下载所有的包。详情见下图。
关于Cygwin接下来安装就是一直点击下一步即可。
<2>.配置cygwin
安装完毕cygwin之后,最重要的操作就是为Cygwin配置环境变量。
在编辑系统变量中的Path,在期变量值中添加上你的Cygwin安装目录下bin文件夹的绝对路径。
例如我的是G:\cygwin\bin.
至此,在windows平台上开发搭建Nutch的第一步已完成,成功安装cygwin。