大地__搜索引擎的学习

Posted on 2009-10-15 14:54 龍騎少校阅读(163) 评论(0) 编辑收藏举报

倒排以后针对网页和文档所形成的关键词集合，是个庞大的集合。其中可以代表该网页或者该文档内容的关键词才是最权值的关键词。

当然搜索基于此有多种的算饭可以沿用；

基于布尔模型的计算：

实际布尔模型就是0和1的数值计算，查全率高但是准确率底。

基于向量模型的计算：

借助向量，计算出每个关键词的针对向量的相关性。对客户查询的准确有很大的提升。

其中tf-idf的计算，基于相对词频的归一化的词频，主要就是该算法。

基于概率模型的计算：

基本思想：给定一个用户的查询字符串，相对于该字符串存在一个包含所有相关文档的集合。我们把这样的集合看作是一个理想的结果文档集，能很容易得到结果的文档。这样就可以把查询处理看作是对理想结果文档的集属性的处理。

基于贝叶斯定律的计算：

p(dj|r)*p(r)

sim(dj,q)= ------------

- -

p(dj|r)*p(r)

广义的向量空间模型：

索引词向量是线性独立而不是两两相交的。在广义向量模型中，两个关键词向量可能不是正交的，这就说明索引词向量不能看成是向量空间的正交基向量，相反是由更小的分量组成。

神经网络模型：

人工神经网络是对人脑或者自然神经网络若干特性的抽象和模拟。主要以大脑的生理研究成果为基础，目的在于模拟大脑的某些机理和机制，实现某个方面的功能。

人体的神经元由细胞体，树突，轴突三部分组成。

推理网络模型：

这是建立在贝叶斯可信度网络理论基础之上的一种新型检索模型。

信任度网络模型：

基于贝叶斯网络理论的另一个检索模型是信任度网络模型。

........................

写起来东西还蛮多的，哈哈

刷新页面返回顶部

龍騎少校