随笔分类 -  搜索引擎

搜索引擎研究,分词技术,索引技术,开源搜索引擎研究。
摘要:在FreeBSD上配置Sphinx搜索引擎和linux上相比,会有一些差异,而且步骤可能会更加的繁琐。有些可能无法用make系统进行编译,必须手动修改configure文件,或者代码。或者只能手动编译。1.安装Mmseghttp://www.coreseek.cn/uploads/sources/mmseg-0.7.3.tar.gzMmseg比较成熟,安装的过程一般不会出什么问题。但是还是有一些注... 阅读全文
posted @ 2009-10-20 13:36 暮夏 阅读(649) 评论(0) 推荐(0) 编辑
摘要:排序采用下面的算法:score(q,d) = sum( tf(t in d) * idf(t) * getBoost(t.field in d) * lengthNorm(t.field in d) ) * coord(q,d) * queryNorm(q)。q 是查询 d 是一篇文章, score 表示 q 在 d 中的评分。t 表示 q 的一个部分,一个词汇: 比如,中国人民 可能会分割成 &... 阅读全文
posted @ 2009-10-14 17:38 暮夏 阅读(1202) 评论(0) 推荐(1) 编辑
摘要:1. 介绍实际上 sphinx的网站上的title 说的很清楚,这个是一个 “免费开源的SQL 全文索引搜索引擎”。当然,它不是一个完整的搜索引擎,只提供索引 和 查询接口。所以,学习sphinx 主要是要学习:如何建立索引,如何调用查询接口。他的作者只有一个人,但是,功能的确非常强大。目前,支持下面的特性:n高速索引(10M/s, 主流cpu配置)n高速查询(2-4G 文... 阅读全文
posted @ 2009-10-13 17:13 暮夏 阅读(2386) 评论(5) 推荐(1) 编辑

点击右上角即可分享
微信分享提示