几种C/C++开发的开源搜索引擎

(1)CLucene
CLucene是Lucene的一个C++端口,Lucene是一个基于java的高性能的全文搜索引擎。CLucene因为使用C++编写,所以理论上要比lucene快。
项目主页: 
http://clucene.wiki.sourceforge.net/
(2)Xapian
Xapian是一个用C++编写的全文检索程序,他的作用类似于Java的lucene。尽管在Java世界lucene已经是标准的全文检索程序,但是C/C++世界并没有相应的工具,而Xapian则填补了这个缺憾。 
Xapian的api和检索原理和lucene在很多方面都很相似,但是也有一些地方存在不同,具体请看Xapian自己的文档:http://www.xapian.org/docs/ 
Xapian除了提供原生的C++编程接口之外,还提供了Perl,PHP,Python和Ruby编程接口和相应的类库,所以你可以直接从自己喜欢的脚本编程语言当中使用Xapian进行全文检索了。
项目主页: 
http://xapian.org/

(3)DataparkSearch
DataparkSearch 搜索引擎是一个 C 语言的全功能的开源基于Web的搜索引擎,
支持来自 http, https, ftp, nntp, and news URLs, htdb virtual URL 的数据,内嵌支持数据库、 text/html, text/xml, text/plain, audio/mpeg (MP3), and image/gif 等格式数据。
项目主页: 
http://www.dataparksearch.org/
(4)PonySE
PonySE是一个高速的, 灵活的, 小型web搜索引擎, 使用C/C++开发. PonySE的每一个模块都尽量独立, 这意味着你可以单独使用其中的一个你觉得有用的模块。
项目主页: 
http://gforge.osdn.net.cn/projects/ponyse/
(5)FirteX
FirteX 是一个功能强大、高性能、灵活的全文索引和检索平台。 FirteX 的主要目标是研究文本索引的快速构建 (Index Construction) ,动态文档集的索引维护 (Index Maintenance) ,短语查询 (Phrase Query),Top-k 查询的快速处理 (Top-k Query Process) 以及各种检索模型( IR Model )等。高性能和灵活的架构也使 FirteX 可以应用在产品搜索,桌面搜索,站内搜索,新闻搜索, Blog 搜索,学术搜索以及大规模搜索引擎等领域中。
项目主页:
http://www.firtex.org/

6 北大天网就是啊。 
他们的实验室是http://net.pku.edu.cn/ 
源代码http://sewm.pku.edu.cn/src/

7 lemur Indri是Lemur Toolkit中的一个完整的搜索引擎, 本资源是介绍Indri原理和使用的Slide

posted on 2012-10-09 13:13  紫金树下  阅读(1776)  评论(0编辑  收藏  举报