wmd距离

word mover's  Distance

优点:

1.效果出色

2.无监督:不需要标注数据

3.模型简单:仅将词向量作为结果输入

4.可解释下:问题转为线性规划,有全局最优解

5.灵活性:可以人为干预词的重要性

缺点:

 1.词袋模型,没有保留语序信息

2.不能很好地处理词向量的out of vocabulary问题

3.否定词、同义词、互斥词的处理效果不好

4.时间复杂度较高

步骤:

1.利用word2vec将词编码成词向量。

2.去掉停用词

3.计算词在文本中的权重,一般用词频表示

4.对于每个词,找到另外一个文本的一些词,如果两个词的词义比较相近,可以全部移动或移动多一些,语义差别较大,可以少移动或不移动。最后用词向量的距离乘以移动的距离相乘作为词的转移代价。

5最终保证全局的转移代价最小。

6.文本一的词要全部移出,文本二中的词要全部移入。

参考文献:

https://zhuanlan.zhihu.com/p/84809907

 

posted @ 2020-07-24 10:17  猫七的blog  阅读(188)  评论(0编辑  收藏  举报