陶宝的博客

Web开发

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

免费开源的全文索引与检索平台(FirteX)、中文分词系统(ICTCLAS)

ICTCLAS简介:

   国内和国际权威的公开评测、五万客户的认可——ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。

     综合性能最优——ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M。

  全方位支持各种环境下的应用开发——ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++、C#、Delphi、Java等主流的开发语言。

 官网:http://ictclas.org/index.html

      补充:小型项目用ICTCLAS制作一个基于数据库的全文搜索也是可以的,

 FirteX简介:

  FirteX 支持纯文本,网页, PDF,Microsoft Office 等文件格式,支持中文(GB2312 和 GBK) 和英文,灵活的架构也可以方便地扩展支持其他语言和编码;检索语法丰富,支持多字段检索,日期范围检索,检索结果自定义排序等;系统也可以通过 COM 插件无限扩展。

   FirteX 设计成可以处理大规模数据,具有较高的性能,在单台 Pentium 4 2.8G 2GRAM 的机器上超过 200Mb 每分钟的纯文本索引速度,在近 100G 的网页上搜索,仅用十几M内存能在数毫秒内返回结果。

   FirteX采用C++开发,以GPL(General Public License)开放源码授权协议的形式发布,这意味着您可以在遵循GPL协议的基础上自由使用FirteX,也可以参与到FirteX的开发中来。如果需要其他授权协议,请联系我们。 

官网:http://www.firtex.org/index.html

 

 补充:FirteX还未封装C#,JAVA等语言的使用接口,在web项目中应用方法如下:

方法一:可以将firtex封装,建立独立的搜索服务器服务与网站socket通信来实现全文搜索;

方法二:将firtex封装在memcached,借用memcached服务做守护进程,将所有的搜索模块都封装,这样要做的工作就是装卸,不用自己写代码。(来自群讨论)






 

posted on   陶宝  阅读(1831)  评论(0编辑  收藏  举报

编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· .NET周刊【3月第1期 2025-03-02】
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· [AI/GPT/综述] AI Agent的设计模式综述
点击右上角即可分享
微信分享提示