word2vec和one-hot
相比与bow(bag of word),两个都是特征的降维,
bow 每个词是一个文档向量中的一维
而one-hot是一个词本身是一个向量(一维是1,其他是0),不同词之间的区别是1的位置不同,但是1的位置不表示实际意义
而word2vec中,每个词用一个实数向量表示,语义相近的词的向量夹角余弦相似度更相近 比如 都是水果等等
one-hot和word2vec 都属于 distributed represent 表示法
word2vec可能需要涉及到一些聚类等,具体还没深入研究