123

常用的语言模型都是在近似地求 P(wt|w1,w2,,wt1)P(wt|w1,w2,…,wt−1)。比如 n-gram 模型就是用 P(wt|wtn+1,,wt1)P(wt|wt−n+1,…,wt−1) 近似表示前者。

一种用神经网络构建二元语言模型(即 P(wt|wt1)P(wt|wt−1))的方法

 4.1 词向量 

1.one-hot-represatation

对一个词表顺序编号1苹果2水果3芒果4葡萄5香蕉

出现芒果则第三个位置对应1其他位置为0

00100

1.维数灾难,2.无法计算相似度

2. Distributed Representation 

word2vec就是采用这种方法

将词映射成k维空间的向量

可以通过余弦,欧氏距离计算相似度

4.2 统计语言模型

 就是字符串的概率

(1)上下文无关模型(Context=NULL

𝑝(𝑤t|Context)= 𝑝(𝑤𝑡)=𝑁(𝑤t)/ 𝑁 

相当于n=1

(2)n-gram 模型(Context= 𝑤𝑡−n+1, 𝑤𝑡−n+2,…,𝑤𝑡−1) 

n=2叫bigram

n-gram 模型的优点包含了前 N-1 个词所能提供的全部信息,只看 N-1 个词

posted @ 2016-07-05 19:15  奋斗中的菲比  阅读(176)  评论(0编辑  收藏  举报