倒排以后针对网页和文档所形成的关键词集合,是个庞大的集合。其中可以代表该网页或者该文档内容的关键词才是最权值的关键词。
当然搜索基于此有多种的算饭可以沿用;
基于布尔模型的计算:
实际布尔模型就是0和1的数值计算,查全率高但是准确率底。
基于向量模型的计算:
借助向量,计算出每个关键词的针对向量的相关性。对客户查询的准确有很大的提升。
其中tf-idf的计算,基于相对词频的归一化的词频,主要就是该算法。
基于概率模型的计算:
基本思想:给定一个用户的查询字符串,相对于该字符串存在一个包含所有相关文档的集合。我们把这样的集合看作是一个理想的结果文档集,能很容易得到结果的文档。这样就可以把查询处理看作是对理想结果文档的集属性的处理。
基于贝叶斯定律的计算:
p(dj|r)*p(r)
sim(dj,q)= ------------
- -
p(dj|r)*p(r)
广义的向量空间模型:
索引词向量是线性独立而不是两两相交的。在广义向量模型中,两个关键词向量可能不是正交的,这就说明索引词向量不能看成是向量空间的正交基向量,相反是由更小的分量组成。
神经网络模型:
人工神经网络是对人脑或者自然神经网络若干特性的抽象和模拟。主要以大脑的生理研究成果为基础,目的在于模拟大脑的某些机理和机制,实现某个方面的功能。
人体的神经元由细胞体,树突,轴突三部分组成。
推理网络模型:
这是建立在贝叶斯可信度网络理论基础之上的一种新型检索模型。
信任度网络模型:
基于贝叶斯网络理论的另一个检索模型是信任度网络模型。
........................
写起来东西还蛮多的,哈哈