随笔分类 -  java

摘要:以Red Hat Enterprise Linux 5为例进行讲解。相关系列:linux下jdk的安装linux下ant的安装linux下redis的安装linux下svn的安装linux下nginx的安装linux下graphviz的安装linux下doxygen的安装 阅读全文
posted @ 2014-06-28 00:47 风与叶子 阅读(145) 评论(0) 推荐(0) 编辑
摘要:要是配置文件的路径问题。打开终端,输入vi~/.bashrc添加如下代码即可。# set Java environmentJAVA_HOME=/usr/local/java/jdk1.8.0PATH=JAVAHOME/bin:PATHCLASSPATH=.:JAVAHOME/lib/dt.jar:JAVA_HOME/lib/tools.jarexport JAVA_HOMEexport PATHexport CLASSPATH注意上面緑色的地方是点(代表当前路径)和一个分号。 阅读全文
posted @ 2014-04-10 21:34 风与叶子 阅读(1776) 评论(0) 推荐(0) 编辑
摘要:plugin(插件)为nutch提供了一些功能强大的部件,举个例子,HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。为什么nutch要使用这样的plugin系统? 有三个原因:1:可扩展性 通过plugin,nutch允许任何人扩展它的功能,而我们要做的只是对给定的接口做简单的实现,举个例子:MSWordParser这个插件是用来分析wordwendang的,它就是一个对parser这个接口的实现2:灵活性 因为每个人都可以根据自己的需求而写自己的plugin,这样plugin就会有一个很强大的资源库。这样对与应用nutch程序员来说,他可以在自己的搜索引擎上 阅读全文
posted @ 2013-09-18 14:19 风与叶子 阅读(328) 评论(0) 推荐(0) 编辑
摘要:1.为处理方便,直接在nutchurl.txthttp://www.sina.com.cn/"/""http://"2.crawlurlfilter.txtnutch/conf/crawl-urlfilter.txt,找到这两行# accept hosts in MY.DOMAIN.NAME+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/红色部分是一个正则,改写为如下形式+^http://([a-z0-9] 阅读全文
posted @ 2013-09-18 14:18 风与叶子 阅读(322) 评论(0) 推荐(0) 编辑
摘要:用cygwin运行nutch 1.2爬取提示IOException:[plain]view plaincopy$bin/nutchcrawlurls-dircrawl-depth3-topN10crawlstartedin:crawlrootUrlDir=urlsthreads=10depth=3indexer=lucenetopN=10Injector:startingat2011-10-1015:19:26Injector:crawlDb:crawl/crawldbInjector:urlDir:urlsInjector:Convertinginjectedurlstocrawldbent 阅读全文
posted @ 2013-09-18 14:15 风与叶子 阅读(1648) 评论(0) 推荐(0) 编辑
摘要:就像我们知道的一样,nutch是一个架构在lucene之上的网络爬虫+搜索引擎.是由lucene的作者在lucene基础之上开发,并整合了hadoop,实现在分布式云计算,使用google标准的HFDS文件系统作为存储结构,是一款高伸缩性能与高效高并发的网络爬虫+搜索引擎.FaceYe在后台已经整合了nutch,在适当的时候,就可以开始为用户提供高质量的知识索引服务.顺便说一下,nutch在生产环境中,并不能在windows下运行,需要在liux下运行,这其中主要是hadoop采用了一些shello脚本,当然,开发平台还是可以搭建在window下,但需要安装cygwin,来模拟shell环境. 阅读全文
posted @ 2013-09-18 14:10 风与叶子 阅读(607) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示