文本表示模型
词袋模型、TF-IDF
词袋模型(BOW,Bag of Word),整段文本为一个向量,向量每一维度表示一个单词,每个数值对应这个词的重要程度。忽略顺序信息。
最简单的词袋模型就是统计每个词出现的次数,作为特征值。
常用 TF-IDF(term frequency–inverse document frequency)计算词袋模型的向量。
TF 是词频,TF(t, d) 表示单词 t 在文档 d 中出现的频率。IDF(t) 是逆文档频率,衡量单词 t 对语义的重要程度。包含 t 的文章数越多,说明它越通用,对语义贡献小。
TF-IDF(t, d) = TF(t, d) × IDF(t)
词嵌入、word2vec
词嵌入(word embedding)为每个单词构造一组特征,语义近似的词汇被映射为相邻的数据点。
常用 word2vec 构成词向量模型,有 CBOW 和 Skip-Gram 两种浅层神经网络模型。
CBOW 模型通过上下文预测当前词的概率,Skip-Gram 通过当前词预测上下文词的概率。
在两个模型中,输入的单词使用 one-hot 编码,假设有n个单词,输入的维度就是 n。
隐藏层中使用k个神经元,输入层到隐含层的权重矩阵 w 的维度为 n×k。训练完,选取 w 作为n个词的k维向量表示,最终得到的词向量维度是 k。
基于哈夫曼树的 CBOW 模型:CBOW 的输出层对应一颗 Huffman 树,是根据词频建立的,叶子结点为语料库中的词。非叶子结点相当于一个 lr,二分类决策输出1或0,分别代表分到左边或者是右边,lr的目标就让走正确条路径的可能性最大。
主题模型:pLSA、LDA
再说。