NLP学习笔记05---文本的分布式表达

1.One-hot表示方法的缺点

向量的大小与词典的长度相等

主要缺点：<1>不能表示语义相似度 <2>向量很稀疏

2.分布式表示(Distributed Representation)---词向量

输入足够多的数据(10^10的单词)

词向量代表单词的意思。word2vec,某种意义上可以理解成词的意思

上图的坐标轴，可见意思相近的词聚集在一起(可以表示两个词的语义相似度)

posted @ 2020-04-23 15:44 雨后观山色阅读(661) 评论(0) 编辑收藏举报

刷新页面返回顶部