06 2008 档案

Clucene实现中文分词搜索(转载)
摘要:最近,一阵忙乎,终于在Clucene(版本0.9.16)中实现了中文分词搜索。 一些需要改动的地方如下: 一、 把项目设置为Use Unicode Character Set。因为使用ANSI时,汉字存在与其他语言编码重叠的问题,不能准确判断是否为汉字。 二、 \src\CLucene\util\Misc.cpp中有个... 阅读全文

posted @ 2008-06-29 16:32 cy163 阅读(1495) 评论(1) 推荐(0) 编辑

lucene in action中文版-第一章-接触Lucene
摘要:1.4.1 创建一个索引 在本节中,你将看到一个名为Indexer的类和它的四个静态方法。它们共同递归遍历文件系统目录并索引所有具有.txt扩展名的文件。当Indexer执行完毕时,为它的后续Searcher(在1.4.2小节中介绍)留下一个创建好的lucene索引。 我们不期望你熟悉例子中用到的几个lucene类和方法,我们马上就会解释它们。在有注释的代码列表之后,我们向你展示了如何使用Inde... 阅读全文

posted @ 2008-06-27 22:47 cy163 阅读(1067) 评论(0) 推荐(0) 编辑

企业异构数据源集成
摘要:背景 今天,越来越多的的应用需要访问各种异构数据源。对于企业应用来说,这既是企业内部发展的需要也是企业适应外部环境的需要。 企业在发展过程中积累了大量数据,并为存储和管理这些数据不断投资。然而,由于实施数据管理系统的阶段性、技术性以及其它经济和人为因素的影响,以至即使在一个单独企业,采用的数据管理系统也大不相同,从简单的文件数据库到复杂的网络数据库,它们构成了企业的异构数据源。尽管... 阅读全文

posted @ 2008-06-16 22:53 cy163 阅读(1604) 评论(0) 推荐(0) 编辑

Naval Simulation System
摘要:Naval Simulation System (NSS) Web Site Description: Naval Simulation System (NSS) is a state-of-the-art monte carlo si... 阅读全文

posted @ 2008-06-16 10:29 cy163 阅读(722) 评论(0) 推荐(0) 编辑

#include "CLucene.h" After a rather long search for the cause Strigi crash on PPC (e.g. Mac)use the flag -ansi when compiling c++ code
摘要:Common CLucene problems After a rather long search for the cause Strigi crash on PPC (e.g. Mac Mini), I found out that it is a good idea to always use the flag -ansi when compiling c++ code. What ha... 阅读全文

posted @ 2008-06-09 23:15 cy163 阅读(540) 评论(0) 推荐(0) 编辑

Clucene 类 的详细说明
摘要:Here is a list of all class members with links to the classes they belong to: - _ - __asTermDocs() : lucene::index::TermPositions, lucene::index::SegmentTermPositions, lucene::index::MultiTermPos... 阅读全文

posted @ 2008-06-09 23:13 cy163 阅读(1609) 评论(0) 推荐(0) 编辑

实际程序调用IndexWriter* writer = NULL
摘要:最近由于项目需要,原先用MySQL实现的全文检索功能已不能满足需求,于是乎想到了利用开源的全文检索项目,经人介绍看看了Lucene,Lucene使用Java实现的,目前是Apache Jakarta的项目之一,已经有一套完整和成熟的库,可惜本人对Java懂之甚少,便找了个C++ porting的版本,看了看里面的demo,动手体验了一下,感觉用“短小、强悍”形容再恰当不过了,十几行代码便能完成建立... 阅读全文

posted @ 2008-06-09 23:11 cy163 阅读(501) 评论(0) 推荐(0) 编辑

在Linux RedHat Advanced Server 4 上安装Clucene 的过程及注意事项
摘要:20008年6月4日开始在计算机集群的管理节点xcat1机器上 安装Clucene. 首先从http://sourceforge.net/project/showfiles.php?group_id=80013下载clucene-core-0.9.20stable版。 在 上面的下载地址有contribs版和core版之分。core版自成系统,无需依赖其它任何软件包;contribs版则需要依... 阅读全文

posted @ 2008-06-07 22:01 cy163 阅读(1112) 评论(1) 推荐(0) 编辑

Lucene:基于Java的全文检索引擎简介 车东
摘要:Lucene是一个基于Java的全文索引工具包。 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基于词库和自动切分词算法的比较 具体的安装和使用简介:系统结构介绍和演示 Hacking Lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩... 阅读全文

posted @ 2008-06-07 10:59 cy163 阅读(606) 评论(0) 推荐(0) 编辑

使用clucene对汉字文本进行索引
摘要:Java的lucene是正统,功能更强大,开发快速,而且和J2EE天然融合(都是使用Java),怎么看都比clucene强多了。那为什么要使用clucene呢?原因有两个: 一:C++的速度快。当对索引速度有更高数量级的要求时,单纯设置MergeFactor和MinMergeDocNum无法实现的。 二:索引的内容如果是另外的C++写的工具的结果,那么用clucene就比luc... 阅读全文

posted @ 2008-06-07 10:57 cy163 阅读(3090) 评论(0) 推荐(0) 编辑

Lucene于搜索引擎技术(Analysis包详解)
摘要:Analysis包分析 算法和数据结构分析: 由于Analysis包比较简单,不详述了! 算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话) 数据结构:部分源码用到了Set ,HashTable,HashMap 认真理解Token Lucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个非常重要的概念. 看一下... 阅读全文

posted @ 2008-06-07 10:33 cy163 阅读(1053) 评论(0) 推荐(0) 编辑

Lucene下引入ICTCLAS进行中文分词的实现方法
摘要:Analysis包分析 算法和数据结构分析: 由于Analysis包比较简单,不详述了! 算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话) 数据结构:部分源码用到了Set ,HashTable,HashMap 认真理解Token Lucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个非常重要的概念. 看一下... 阅读全文

posted @ 2008-06-07 10:33 cy163 阅读(5880) 评论(4) 推荐(0) 编辑

CLucene对中文文本的按字建索引与搜索
摘要:CLucene 0.9.16版本支持中文方法 1,环境:windows平台,vc8 2,项目设置:必须设置为Use Unicode Character Set。 因为使用ANSI时,汉字存在与其他语言编码重叠的问题,在分析文本时,很难判断一个char是否是半个汉字,或者是前半个汉字还是后半个汉字。同时,CLucene对UCS2编码能够提供支持,所以VC项目直接设置为Use Unicode C... 阅读全文

posted @ 2008-06-05 23:22 cy163 阅读(1582) 评论(1) 推荐(1) 编辑

CLucene+ICTCLAS中文分词整合
摘要:计算所汉语词法分析系统ICTCLAS,有关它的信息http://sewm.pku.edu.cn/QA/reference/ICTCLAS/FreeICTCLAS/ 一、生成动态库DLL或静态库Lib文件,并写好接口函数 bool ICT_INIT(int outputFormat,int operateType); void ICT_FILEPROC(char *sFileName); voi... 阅读全文

posted @ 2008-06-05 21:51 cy163 阅读(1507) 评论(1) 推荐(0) 编辑

Clucene C++编码转换
摘要:在做Clucene与lucene生成的Index文件相互兼容时,遇到了编码转换问题。它们的兼容性对于非英文的编码可能都会存在这样的问题,经过跟踪clucene程序,发现它用的是unicode编码方式储蓄,因此,要先把字符串或文件转换成unicode编码,然后再进行其它处理。 转换的具体代码如下(Linux与vc6.0测试通过): #ifndef _UNIX static inline int ... 阅读全文

posted @ 2008-06-05 21:33 cy163 阅读(1070) 评论(0) 推荐(0) 编辑

CLucene 中文分词
摘要:clucene是c++版的lucene,可从CLucene - a C++ search engine http://sourceforge.net/projects/clucene/下载得到代码和最近研究信息。 我在看了《lucene in arction》一周之后,在7月中旬正式开始调研clucene,由于其中的中文不能再demo示例中检索得到,在网上收集clucene中文分词相关资料,发现... 阅读全文

posted @ 2008-06-05 21:23 cy163 阅读(2843) 评论(0) 推荐(0) 编辑

下载 Clucene PPC RedHat 各种版本 的地址
摘要:http://rpmfind.net/linux/RPM/Development_System.html 阅读全文

posted @ 2008-06-05 18:17 cy163 阅读(644) 评论(0) 推荐(0) 编辑

CLucene 'core' package requires no external dependencies 'contrib' package uses a limited number of dependencies
摘要:http://clucene.wiki.sourceforge.net/ApacheProposal Preamble CLucene is a port of the Lucene search engine to C++. Most of the Lucene 1.4.3 features are available. The project aims to be attractive ... 阅读全文

posted @ 2008-06-05 00:06 cy163 阅读(406) 评论(0) 推荐(0) 编辑

Lucene使用者沙龙
摘要:说来惭愧,这篇文章应该是在6月16号完成的,但是最近有很多事儿,实在没时间和精力来写这篇Blog,又不想草草写就,于是一推再推,拖到现在。 这次沙龙的发起者是我和车东,我们在网上有过几次交流,分别是在MSN和SocialBrain的IRC Channel里面。大家都算是Lucene的比较早的实践者,车东还曾经写过一篇Lucene的普及文章(Lucene:基于Java的全文检索引擎简介),在网上流传... 阅读全文

posted @ 2008-06-02 22:33 cy163 阅读(623) 评论(0) 推荐(0) 编辑

关于lucene发展和多语言实现的方向
摘要:多语言lucene的发展无疑是基于java lucene的。一切的功能特性和兼容性的问题都要以java lucene为主。java lucene是其他语言lucene发展的鼻祖。 那么多语言lucene的发展应该怎么办呢? 看看下面的文字吧: There is a concerted effort to develop a SWIG Lucene and there is also a C... 阅读全文

posted @ 2008-06-02 22:19 cy163 阅读(725) 评论(0) 推荐(0) 编辑

终于突破CLuence中文分词的效率问题(转载)
摘要:传统的全文检索都是基于数据库的,Sql Server Oracle mysql 都提供全文检索,但这些比较大,不适合单机或小应用程序(Mysql4.0以上可以作为整合开发),Mysql也不支持中文。 后来得知Apache有一个开源的全文检索引擎,而且应用比较广,Lucene是Apache旗下的JAVA版的全文检索引擎,性能相当出色,可惜是java版的,我一直在想有没有C或C++版的,终于有一天在... 阅读全文

posted @ 2008-06-02 22:14 cy163 阅读(1264) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示