机器学习基础5--文档相似性检索与度量算法
案例:在阅读文章时,推荐相似的文章.
这个案例简单粗暴,尤其是我看小说的时候,闹书荒的时候,真的很希望有这样的功能.(PS:我现在就职于某小说公司)
那么,如何衡量文章之间的相似度?
在开始讲之前,先提一下elasticsearch.
elasticsearch所使用的索引方式被称为倒排索引.将文档拆分成一个一个的词,然后记录该词出现在哪篇文档的哪个位置.具体解释请参照维基百科.
而在这里,我们将使用和倒排索引类似的方法--词袋模型.
我们有如下一句话.
“Carlos calls the sport futbol. Emily calls the sport soccer.”
1 | 2 | 0 | 2 | 2 | 0 | 1 | 0 | 1 | 1 | ... |
carlos | the | tree | calls | sport | cat | futbal | dog | soccer | emily | ... |
我们忽略单词顺序,将其放入一个语料库中.
假设,我有2篇文章已经进行了统计,如下:
1 0 0 0 5 3 0 0 1 0 0 0 0
3 0 0 0 2 0 0 1 0 1 0 0 0
那么,如何判断2篇文章的相似度?
我们使用向量点乘的方式,计算该值.
1*3 + 0*0 + 0*0 ... + 5*2 + ... = 13
我们计算出相似度为13.
我们再计算下面这一篇:
1 0 0 0 5 3 0 0 1 0 0 0 0
0 0 1 0 0 0 9 0 0 6 0 4 0
0 + 0 + 0 .... = 0
发现相似度为0.
问题:
如果我们把文章扩展2倍,看看会发生什么问题.
原来:
1 0 0 0 5 3 0 0 1 0 0 0 0
3 0 0 0 2 0 0 1 0 1 0 0 0
相似度=13
扩展2倍:
2 0 0 0 10 6 0 0 2 0 0 0 0
6 0 0 0 4 0 0 2 0 2 0 0 2
相似度=52
我们仅仅是将篇幅扩展了2倍而已,然而相似度却变了.我们可以发现,对于越长的文章,这个效果越明显.
那么,应该怎样去解决这个问题?
向量归一化
使用向量归一化,可以将不同长度文章放在同等地位,就不会出现上面的问题了.
计算向量范数:
计算元素平分总和,取其平方根.
区分常用词和生僻词,并增加生僻词的重要性:
常用词比如说:“the”, “player”, “field”, “goal”
生僻词比如说:“futbol”, “Messi”
为什么要增加生僻词的重要性呢?
很容易理解,通常来说,生僻词更能描述这篇文字的独特之处.
那我们应该如何去做:
在语料库中比较少见的词称为生僻词,增加这些词的权重,等价于强调那些仅在部分文档中出现的词.
同时,对每个单词,根据其出现在语料库中的文档数,减少权重.
我们将其称为局部常见和全局罕见.我们要找的,就是某种局部出现率和全局罕有率的平衡.
TF-IDF(词频--逆向文件频率法):
TF,即统计单词出现次数.
IDF,则是用来根据它来减小这个数的权重.
下面是IDF的计算方法:
为什么使用这个计算公式?
如公式所示:
当docs using word越大时,公式越接近log1 = 0
当docs using word越小时,公式越接近logLARGE -> large
假如: 在64篇文档中,单词the在63篇文档出现1000次,Messi在3篇文档出现5次.以2为底.
the: log(64/1+63) = 0
Messi: log(64/1+3) = 4
然后tf * idf
the: 1000 * 0 = 0
Messi: 4 * 5 = 20
我们需要一个函数:
定义一个距离,用来衡量相似度.
1. 我们可以计算本文章和其他文章的相似度,返回一个最优结果.
2. 我们可以计算本文章和其他文章的相似度,返回k个最相关的结果(k-近邻搜索).
end
课程:机器学习基础:案例研究(华盛顿大学)
视频链接: https://www.coursera.org/learn/ml-foundations/lecture/EPR3S/clustering-documents-task-overview
week4 Algorithms for retrieval and measuring similarity of documents