由于早期的搜索沿用的借助倒排表,使用布尔模型是0和1的二元逻辑,使用逻辑符号and or not来组织关键词的表达式,所以造成信息检索的结果查全率高,查准率底。但是仍然为大多搜索引擎所使用,尤其是专家检索。
虽然布尔模型有确切的表达式,但是通常很难将用户的需求信息转化为布尔表达式。
介于此为了增加词和信息之间的相关性,搜索开发出了,向量模型,概率模型,神经网络模型,贝叶斯模型等等。实际做的工作是一致的,都是在增加相关性的计算。以求达到和检索者的思维的统一。
向量空间模型是比较经典的一个模型,借助余弦值获得相关性的值,但是其中词频的作用还是不容忽视,精确的绝对词频,也就是文档中词频的绝对数量,相对词频为归一化的词频,其计算方法用tf-idf公式。