wordvector to sentence vector

wordvector已经通过word2vec训练出来了，可是如何通过WV得到SV（Sentence Vector）？

思路1：

直接将句子的向量叠加取平均：效果很不好，每个词没有考虑权重，获取的向量会平均的靠近每一个词

思路2：

方法同上，可是使用关键词算法，对不同的词给与不同的权重：还没有测试，可是我一直对于短文本，关键词的常见算法很不放心。比如TF-IDF的权重，本身也只是一个假设，并不是真的意义上可以说明这个词很关键，并量化。只有到其他方法都不行，我才会考虑这个方法。

思路3：

使用gensim的doc2vec，也是参照了Mikolov2014年的文章“Distributed Representations of Sentences and Documents”.

花了一个早上学会了使用这个包，可是这个的实现实在是很难用，有关的使用案例又非常少，而且我也没有足够的时间去学习这篇文章，最后测试的结果并不好，所以此方法暂且按下不表。

思路4：

知乎上知友提供了一个思路，是一个浙大数学系的人在BAT工作的时候，他们探讨并最后确定实践的方案，据说效果非常好。

链接稍后附上，原理是：

我们word2vec训练出来的模型，构成了一个比如10000词的词典，而在词袋模型中，我们通常是用一个词是否出现、或者出现几次，构成一个稀疏矩阵。

如果一个句子是：我爱北京天安门

在word2vec训练下，与‘我’相似的的TOPN个词，分别有相似度对应，把这几个词的相似度，放到这个稀疏矩阵对应的位置上。相当于，我们从word2vec训练后，得到的信息A，把这个信息放到稀疏矩阵里。

这个思路其实非常巧妙，实现也容易。实现之后，对于520个问题的相似度（采用余弦相似度）匹配，发现TOP250对，都是非常准确的。相似度基本在0.3以上(相似度1为完全相同)的基本是很相似的问句。（因为做了one hot映射，所以相似度-不同的词数的曲线，会前几个骤减，）

到了这部，我们已经可以结合word2vec和one-hot映射得到句子向量，并根据句子向量得到相似度，可是我们依然无法解决长短句难以相似的问题。

首先，一个很长的句子，如果包含了大量的信息，明显是无法直接和短句子进行相似度匹配的，所以我们需要对特征进行提取。

改进思路：加入句法分析，使用分析得到的标签提取关键词，如果这样提取的效果不好，最后还是得尝试使用关键词算法。

posted @ 2018-11-04 17:28 yjy888 阅读(701) 评论(0) 收藏举报

刷新页面返回顶部