上一页 1 ··· 54 55 56 57 58 59 60 61 62 ··· 107 下一页

2008年6月7日

在Linux RedHat Advanced Server 4 上安装Clucene 的过程及注意事项

摘要: 20008年6月4日开始在计算机集群的管理节点xcat1机器上 安装Clucene. 首先从http://sourceforge.net/project/showfiles.php?group_id=80013下载clucene-core-0.9.20stable版。 在 上面的下载地址有contribs版和core版之分。core版自成系统,无需依赖其它任何软件包;contribs版则需要依... 阅读全文

posted @ 2008-06-07 22:01 cy163 阅读(1106) 评论(1) 推荐(0) 编辑

Lucene:基于Java的全文检索引擎简介 车东

摘要: Lucene是一个基于Java的全文索引工具包。 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基于词库和自动切分词算法的比较 具体的安装和使用简介:系统结构介绍和演示 Hacking Lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩... 阅读全文

posted @ 2008-06-07 10:59 cy163 阅读(598) 评论(0) 推荐(0) 编辑

使用clucene对汉字文本进行索引

摘要: Java的lucene是正统,功能更强大,开发快速,而且和J2EE天然融合(都是使用Java),怎么看都比clucene强多了。那为什么要使用clucene呢?原因有两个: 一:C++的速度快。当对索引速度有更高数量级的要求时,单纯设置MergeFactor和MinMergeDocNum无法实现的。 二:索引的内容如果是另外的C++写的工具的结果,那么用clucene就比luc... 阅读全文

posted @ 2008-06-07 10:57 cy163 阅读(3077) 评论(0) 推荐(0) 编辑

Lucene于搜索引擎技术(Analysis包详解)

摘要: Analysis包分析 算法和数据结构分析: 由于Analysis包比较简单,不详述了! 算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话) 数据结构:部分源码用到了Set ,HashTable,HashMap 认真理解Token Lucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个非常重要的概念. 看一下... 阅读全文

posted @ 2008-06-07 10:33 cy163 阅读(1048) 评论(0) 推荐(0) 编辑

Lucene下引入ICTCLAS进行中文分词的实现方法

摘要: Analysis包分析 算法和数据结构分析: 由于Analysis包比较简单,不详述了! 算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话) 数据结构:部分源码用到了Set ,HashTable,HashMap 认真理解Token Lucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个非常重要的概念. 看一下... 阅读全文

posted @ 2008-06-07 10:33 cy163 阅读(5873) 评论(4) 推荐(0) 编辑

2008年6月5日

CLucene对中文文本的按字建索引与搜索

摘要: CLucene 0.9.16版本支持中文方法 1,环境:windows平台,vc8 2,项目设置:必须设置为Use Unicode Character Set。 因为使用ANSI时,汉字存在与其他语言编码重叠的问题,在分析文本时,很难判断一个char是否是半个汉字,或者是前半个汉字还是后半个汉字。同时,CLucene对UCS2编码能够提供支持,所以VC项目直接设置为Use Unicode C... 阅读全文

posted @ 2008-06-05 23:22 cy163 阅读(1574) 评论(1) 推荐(1) 编辑

CLucene+ICTCLAS中文分词整合

摘要: 计算所汉语词法分析系统ICTCLAS,有关它的信息http://sewm.pku.edu.cn/QA/reference/ICTCLAS/FreeICTCLAS/ 一、生成动态库DLL或静态库Lib文件,并写好接口函数 bool ICT_INIT(int outputFormat,int operateType); void ICT_FILEPROC(char *sFileName); voi... 阅读全文

posted @ 2008-06-05 21:51 cy163 阅读(1499) 评论(1) 推荐(0) 编辑

Clucene C++编码转换

摘要: 在做Clucene与lucene生成的Index文件相互兼容时,遇到了编码转换问题。它们的兼容性对于非英文的编码可能都会存在这样的问题,经过跟踪clucene程序,发现它用的是unicode编码方式储蓄,因此,要先把字符串或文件转换成unicode编码,然后再进行其它处理。 转换的具体代码如下(Linux与vc6.0测试通过): #ifndef _UNIX static inline int ... 阅读全文

posted @ 2008-06-05 21:33 cy163 阅读(1068) 评论(0) 推荐(0) 编辑

CLucene 中文分词

摘要: clucene是c++版的lucene,可从CLucene - a C++ search engine http://sourceforge.net/projects/clucene/下载得到代码和最近研究信息。 我在看了《lucene in arction》一周之后,在7月中旬正式开始调研clucene,由于其中的中文不能再demo示例中检索得到,在网上收集clucene中文分词相关资料,发现... 阅读全文

posted @ 2008-06-05 21:23 cy163 阅读(2820) 评论(0) 推荐(0) 编辑

下载 Clucene PPC RedHat 各种版本 的地址

摘要: http://rpmfind.net/linux/RPM/Development_System.html 阅读全文

posted @ 2008-06-05 18:17 cy163 阅读(643) 评论(0) 推荐(0) 编辑

上一页 1 ··· 54 55 56 57 58 59 60 61 62 ··· 107 下一页

导航