与搜索引擎相关的资源
一, 开源项目
(1)Lucene
地址: http://lucene.apache.org/
Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。
Lucene的原作者是Doug Cutting,他是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎的主要开发者,后在Excite担任高级系统架构设计师,目前从事于一些Internet底层架构的研究。早先发布在作者自己的http://www.lucene.com/,后来发布在SourceForge,2001年年底成为apache软件基金会jakarta的一个子项目:http://jakarta.apache.org/lucene/。
(2)ASPseek
地址: http://www.aspseek.org/
ASPseek是一个由SWsoft公司开发, 基于GNU GPL发布, 使用C++和STL实现的web搜索引擎。它主要包括三部分:索引机器人,搜索器, CGI搜索前端。ASPseek可以索引几百万个URL并且可能用给定的词或短语来检索, 能使用通配符, 进行布尔搜索。搜索结果可以限定在给定的时间和站点空间内,并能按相关性(页面权重)或者时间进行排序。
ASPseek支持多种语言编码, 它的程序是基于多站点进行优化的, 例如多线程检索,同步DNS查找,结果分组, Web空间等, 同时它对单个站点的搜索也支持得很好。ASPseek还包括其他一些特性, 如支持停用词(stopwords)和拼写检查(ispell), 字符集和语言的预测, 搜索结果的HTML模板,查询词高亮度显示等.
(3)DataparkSearch
地址: http://www.dataparksearch.org/
DataparkSearch是一个基于GPL发布的搜索引擎, 可以用来创建中小型的个人或企业搜索引擎. 它的优点在于支持中文, 包括支持Unicdoe/GB/Big5码, 以及具有简单的切词功能.
除了搜索网页并建立索引, DataparkSearch还能够直接从MySQL等资料库收集内容, 能够把动态网页的资料直接由资料库中建立索引.
(4)Swish-e
地址: http://swish-e.org/
Swish-e是一个快速,灵活,开源的网页和文件索引系统.Swish-e适合百万以内的文档量, 它借助GNOME libxml2解析器和收集过滤器, 可以将文本,电子邮件,PDF,HTML,XML以及微软的Word/PowerPoint/Excel等所有可以转化为XML或HTML的任何文件进行索引. Swish-e也常常被当作数据库(例如MySQL数据库管理系)快速全文检索的补充.
(5)ht://Dig
网址: http://www.htdig.org/
ht:/Dig系统是一个完整的适用于局域的Web索引和检索系统.这个系统的目的并不是去代替像Lycos,Infoseek,Google和AltaVista等这些高效的因特网搜索引擎.它的目的是满足一个公司, 学校, 或网站的搜索功能需要.
(6)Indri
网址: http://www.lemurproject.org/indri/
Indri是一个完整的开源搜索引擎,由卡耐基-梅隆大学Lemur项目组维护并持续开发。
二,组件和开发包
三,搜索引擎官方blog和网站
一些搜索引擎有官方的blog, 常常会发布一些最新的产品动态和搜索引擎技术的文章. 值得一看.
(1)google黑板报
网址: http://googlechinablog.com/
著名的数学之美系列文章就出自google黑板报.
(2)搜狗实验室
网址: http://www.sogou.com/labs/
搜狗实验室公布的资源很多, 例如网络流行词库等等.