自然语言处理3-4:文本表示之词向量

这玩意儿和one-hot就不同了,词向量的表示方法可以称之为分布式表示法
首先,向量的维度是自己任意指定的,其次,词向量的值是通过深度学习模型训练出来的。训练的目的也就是使得生成的词向量能够很好地反映出单词的意思,意思相近的单词对应的词向量其相似度也高。如下图所示就是通过训练得到的单词的词向量。其实有很多已经训练好的词向量模型可以直接供我们使用,但是对于某些特定领域的应用,例如金融,医疗,我们还是得自己训练词向量。

 

 

 

而对于分布式表示,句子该怎么表示呢?第一种,直接把句子中的单词对应的词向量求平均,例如,如果“我们”的词向量是(0.1,0.2,0.1,0.3),“去”对应的词向量是(0.3,0.2,0.15,0.2),“运动”对应的词向量是(0.2,0.15,0.4,0.7),那么“我们去运动”对应的句向量是(0.2,0.18,0.22,0.4)

还有一种方法是用LSTM/RNN来生成

 

posted @ 2020-09-21 01:24  地球上最后一个直男  阅读(461)  评论(0编辑  收藏  举报