随笔分类 - java
摘要:以Red Hat Enterprise Linux 5为例进行讲解。相关系列:linux下jdk的安装linux下ant的安装linux下redis的安装linux下svn的安装linux下nginx的安装linux下graphviz的安装linux下doxygen的安装
阅读全文
摘要:要是配置文件的路径问题。打开终端,输入vi~/.bashrc添加如下代码即可。# set Java environmentJAVA_HOME=/usr/local/java/jdk1.8.0PATH=PATHCLASSPATH=.:JAVA_HOME/lib/tools.jarexport JAVA_HOMEexport PATHexport CLASSPATH注意上面緑色的地方是点(代表当前路径)和一个分号。
阅读全文
摘要:plugin(插件)为nutch提供了一些功能强大的部件,举个例子,HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。为什么nutch要使用这样的plugin系统? 有三个原因:1:可扩展性 通过plugin,nutch允许任何人扩展它的功能,而我们要做的只是对给定的接口做简单的实现,举个例子:MSWordParser这个插件是用来分析wordwendang的,它就是一个对parser这个接口的实现2:灵活性 因为每个人都可以根据自己的需求而写自己的plugin,这样plugin就会有一个很强大的资源库。这样对与应用nutch程序员来说,他可以在自己的搜索引擎上
阅读全文
摘要:1.为处理方便,直接在nutch/conf/crawl-urlfilter.txt,找到这两行# accept hosts in MY.DOMAIN.NAME+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/红色部分是一个正则,改写为如下形式+^http://([a-z0-9]
阅读全文
摘要:用cygwin运行nutch 1.2爬取提示IOException:[plain]view plaincopy$bin/nutchcrawlurls-dircrawl-depth3-topN10crawlstartedin:crawlrootUrlDir=urlsthreads=10depth=3indexer=lucenetopN=10Injector:startingat2011-10-1015:19:26Injector:crawlDb:crawl/crawldbInjector:urlDir:urlsInjector:Convertinginjectedurlstocrawldbent
阅读全文
摘要:就像我们知道的一样,nutch是一个架构在lucene之上的网络爬虫+搜索引擎.是由lucene的作者在lucene基础之上开发,并整合了hadoop,实现在分布式云计算,使用google标准的HFDS文件系统作为存储结构,是一款高伸缩性能与高效高并发的网络爬虫+搜索引擎.FaceYe在后台已经整合了nutch,在适当的时候,就可以开始为用户提供高质量的知识索引服务.顺便说一下,nutch在生产环境中,并不能在windows下运行,需要在liux下运行,这其中主要是hadoop采用了一些shello脚本,当然,开发平台还是可以搭建在window下,但需要安装cygwin,来模拟shell环境.
阅读全文