NLP学习笔记05---文本的分布式表达

1.One-hot表示方法的缺点

向量的大小与词典的长度相等

 

主要缺点:<1>不能表示语义相似度   <2>向量很稀疏

2.分布式表示(Distributed Representation)---词向量

 

输入足够多的数据(10^10的单词)

词向量代表单词的意思。word2vec,某种意义上可以理解成词的意思

 

 

上图的坐标轴,可见意思相近的词聚集在一起(可以表示两个词的语义相似度)

posted @ 2020-04-23 15:44  雨后观山色  阅读(661)  评论(0编辑  收藏  举报