1.One-hot表示方法的缺点
向量的大小与词典的长度相等
主要缺点:<1>不能表示语义相似度 <2>向量很稀疏
2.分布式表示(Distributed Representation)---词向量
输入足够多的数据(10^10的单词)
词向量代表单词的意思。word2vec,某种意义上可以理解成词的意思
上图的坐标轴,可见意思相近的词聚集在一起(可以表示两个词的语义相似度)