2008年6月5日

CLucene对中文文本的按字建索引与搜索

摘要: CLucene 0.9.16版本支持中文方法 1,环境:windows平台,vc8 2,项目设置:必须设置为Use Unicode Character Set。 因为使用ANSI时,汉字存在与其他语言编码重叠的问题,在分析文本时,很难判断一个char是否是半个汉字,或者是前半个汉字还是后半个汉字。同时,CLucene对UCS2编码能够提供支持,所以VC项目直接设置为Use Unicode C... 阅读全文

posted @ 2008-06-05 23:22 cy163 阅读(1576) 评论(1) 推荐(1) 编辑

CLucene+ICTCLAS中文分词整合

摘要: 计算所汉语词法分析系统ICTCLAS,有关它的信息http://sewm.pku.edu.cn/QA/reference/ICTCLAS/FreeICTCLAS/ 一、生成动态库DLL或静态库Lib文件,并写好接口函数 bool ICT_INIT(int outputFormat,int operateType); void ICT_FILEPROC(char *sFileName); voi... 阅读全文

posted @ 2008-06-05 21:51 cy163 阅读(1502) 评论(1) 推荐(0) 编辑

Clucene C++编码转换

摘要: 在做Clucene与lucene生成的Index文件相互兼容时,遇到了编码转换问题。它们的兼容性对于非英文的编码可能都会存在这样的问题,经过跟踪clucene程序,发现它用的是unicode编码方式储蓄,因此,要先把字符串或文件转换成unicode编码,然后再进行其它处理。 转换的具体代码如下(Linux与vc6.0测试通过): #ifndef _UNIX static inline int ... 阅读全文

posted @ 2008-06-05 21:33 cy163 阅读(1069) 评论(0) 推荐(0) 编辑

CLucene 中文分词

摘要: clucene是c++版的lucene,可从CLucene - a C++ search engine http://sourceforge.net/projects/clucene/下载得到代码和最近研究信息。 我在看了《lucene in arction》一周之后,在7月中旬正式开始调研clucene,由于其中的中文不能再demo示例中检索得到,在网上收集clucene中文分词相关资料,发现... 阅读全文

posted @ 2008-06-05 21:23 cy163 阅读(2822) 评论(0) 推荐(0) 编辑

下载 Clucene PPC RedHat 各种版本 的地址

摘要: http://rpmfind.net/linux/RPM/Development_System.html 阅读全文

posted @ 2008-06-05 18:17 cy163 阅读(643) 评论(0) 推荐(0) 编辑

CLucene 'core' package requires no external dependencies 'contrib' package uses a limited number of dependencies

摘要: http://clucene.wiki.sourceforge.net/ApacheProposal Preamble CLucene is a port of the Lucene search engine to C++. Most of the Lucene 1.4.3 features are available. The project aims to be attractive ... 阅读全文

posted @ 2008-06-05 00:06 cy163 阅读(406) 评论(0) 推荐(0) 编辑

导航