摘要:
相似度从字面上理解就是两个事物的相似程度。在信息检索中,相似度表示的是两个文档之间的相似程度或者查询与文档的相似程度。首先回想一下检索过程:1:首先用户输入查询词。2:搜索引擎根据查询词查找相应的文档。3:搜索引擎把查询结果以一定的方式显示给用户。那么一篇文档是否满足用户的查询需求可以用文本与查询的相似程度来衡量。而相似度到最后总能够计算成一个实数,所以可以根据文档与查询的相似度进行排序。与查询相似度较高的文档排在前面,较低的排在后面。相似度的计算方式五花八门。比如上一篇文章中,可以简单的利用tf*idf的累加和代表文档与查询的相似程度。当然这种方法看上去没什么理论深度,所以就不讨论了。对于一 阅读全文