123
常用的语言模型都是在近似地求 P(wt|w1,w2,…,wt−1)P(wt|w1,w2,…,wt−1)。比如 n-gram 模型就是用 P(wt|wt−n+1,…,wt−1)P(wt|wt−n+1,…,wt−1) 近似表示前者。
一种用神经网络构建二元语言模型(即 P(wt|wt−1)P(wt|wt−1))的方法
4.1 词向量
1.one-hot-represatation
对一个词表顺序编号1苹果2水果3芒果4葡萄5香蕉
出现芒果则第三个位置对应1其他位置为0
00100
1.维数灾难,2.无法计算相似度
2. Distributed Representation
word2vec就是采用这种方法
将词映射成k维空间的向量
可以通过余弦,欧氏距离计算相似度
4.2 统计语言模型
就是字符串的概率
(1)上下文无关模型(Context=NULL
𝑝(𝑤t|Context)= 𝑝(𝑤𝑡)=𝑁(𝑤t)/ 𝑁
相当于n=1
(2)n-gram 模型(Context= 𝑤𝑡−n+1, 𝑤𝑡−n+2,…,𝑤𝑡−1)
n=2叫bigram
n-gram 模型的优点包含了前 N-1 个词所能提供的全部信息,只看 N-1 个词