随笔分类 -  Nutch

关于Nutch的一系列文章。
Nutch搜索引擎(第4期)_ Eclipse开发配置
摘要:1、环境准备1.1 本期引言前三期分别介绍了Nutch与Solr在Linux上面的安装,并做了简单的应用,这一期从开发的角度进行,因为我们日常最熟悉的开发环境是Windows,所以本期详细介绍Windows平台的Nutch二次开发所需要进行的配置安装。当我们开发好之后,最后在部署到Linux环境中。... 阅读全文
posted @ 2014-04-28 09:12 虾皮 阅读(11690) 评论(3) 推荐(10) 编辑
Nutch搜索引擎(第3期)_ Nutch简单应用
摘要:1、Nutch命令详解Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。要看Nutch的命令说明,可执行"Nutch"命令。下面是单个命令的说明:crawlcrawl是"org.apache.nutch.crawl.Crawl"的别称,... 阅读全文
posted @ 2014-04-14 11:03 虾皮 阅读(9526) 评论(1) 推荐(3) 编辑
Nutch搜索引擎(第2期)_ Solr简介及安装
摘要:1、Solr简介 Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。 Solr最初由CNET Networks开发,2006 年初,Apache Software Foundation 在Lucene顶级项目的支持下得到了Solr。Solr于2007年1月酝酿成熟,在整个项目孵化期间,Solr稳步地积累各种特性并吸引了一个稳定的用户群体、贡献者和提交人。Solr 现在是 Lucene(Apach.. 阅读全文
posted @ 2014-03-26 12:08 虾皮 阅读(7377) 评论(3) 推荐(3) 编辑
Nutch搜索引擎系列(目录)
摘要:下面是Nutch搜索系列目录,希望对研究Nutch的同学有所帮助。 目录安排: 1)Nutch搜索引擎(第1期)_ Nutch简介及安装[下载] 2)Nutch搜索引擎(第2期)_ Solr简介及安装[下载] 3)Nutch搜索引擎(第3期)_ Nutch简单应用 4)Nutch搜索引擎(第4期)_ 阅读全文
posted @ 2014-03-21 13:23 虾皮 阅读(7250) 评论(4) 推荐(1) 编辑
Nutch搜索引擎(第1期)_ Nutch简介及安装
摘要:1、Nutch简介 Nutch是一个由Java实现的,开放源代码(open-source)的web搜索引擎。主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1.3开始,其集成了这个索引架构。 Nutch目前最新的版本为version1.4。1.1 Nutch的目标 Nutch 致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎。为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十... 阅读全文
posted @ 2014-03-21 12:19 虾皮 阅读(36292) 评论(5) 推荐(19) 编辑
学习Nutch不错的系列文章
摘要:1)Nutch1.2二次开发详细攻略 (1)Windows平台下Cygwin环境的搭建 地址:http://www.cnblogs.com/streamhope/archive/2011/07/27/2118397.html (2)Windows平台下Nutch1.2的搭建 地址:http://www.cnblogs.com/streamhope/archive/2011/07/27/2118408.html (3)Nutch1.2二次开发(关于界面修改) 地址:http://www.cnblogs.com/streamhope/archive/2011/07/27/2118564... 阅读全文
posted @ 2012-04-20 15:18 虾皮 阅读(3784) 评论(1) 推荐(5) 编辑