随笔分类 - Search Engine
摘要:定义余弦相似度(cosine similarity),又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。概念向量,是多维空间中有方向的线段,如下图是二维空间的两个向量:如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。要确定两个向量方向是否一致,可以用余弦定理计算向量的夹角...
阅读全文
摘要:一、什么是推荐算法互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载(informationoverload)问...
阅读全文
摘要:概念TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。逆向文件频率 (inverse ...
阅读全文