2008年6月7日

在Linux RedHat Advanced Server 4 上安装Clucene 的过程及注意事项

摘要: 20008年6月4日开始在计算机集群的管理节点xcat1机器上 安装Clucene. 首先从http://sourceforge.net/project/showfiles.php?group_id=80013下载clucene-core-0.9.20stable版。 在 上面的下载地址有contribs版和core版之分。core版自成系统,无需依赖其它任何软件包;contribs版则需要依... 阅读全文

posted @ 2008-06-07 22:01 cy163 阅读(1106) 评论(1) 推荐(0) 编辑

Lucene:基于Java的全文检索引擎简介 车东

摘要: Lucene是一个基于Java的全文索引工具包。 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基于词库和自动切分词算法的比较 具体的安装和使用简介:系统结构介绍和演示 Hacking Lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩... 阅读全文

posted @ 2008-06-07 10:59 cy163 阅读(598) 评论(0) 推荐(0) 编辑

使用clucene对汉字文本进行索引

摘要: Java的lucene是正统,功能更强大,开发快速,而且和J2EE天然融合(都是使用Java),怎么看都比clucene强多了。那为什么要使用clucene呢?原因有两个: 一:C++的速度快。当对索引速度有更高数量级的要求时,单纯设置MergeFactor和MinMergeDocNum无法实现的。 二:索引的内容如果是另外的C++写的工具的结果,那么用clucene就比luc... 阅读全文

posted @ 2008-06-07 10:57 cy163 阅读(3077) 评论(0) 推荐(0) 编辑

Lucene于搜索引擎技术(Analysis包详解)

摘要: Analysis包分析 算法和数据结构分析: 由于Analysis包比较简单,不详述了! 算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话) 数据结构:部分源码用到了Set ,HashTable,HashMap 认真理解Token Lucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个非常重要的概念. 看一下... 阅读全文

posted @ 2008-06-07 10:33 cy163 阅读(1048) 评论(0) 推荐(0) 编辑

Lucene下引入ICTCLAS进行中文分词的实现方法

摘要: Analysis包分析 算法和数据结构分析: 由于Analysis包比较简单,不详述了! 算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话) 数据结构:部分源码用到了Set ,HashTable,HashMap 认真理解Token Lucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个非常重要的概念. 看一下... 阅读全文

posted @ 2008-06-07 10:33 cy163 阅读(5873) 评论(4) 推荐(0) 编辑

导航