Language Modeling with N-grams (Speech and Language Processing)

语言模型

计算词序列（words sequences)概率的模型称为语言模型（LMs）,词序列(w1,w2,...,wn)的概率为：
P(w₁ⁿ) = P(w₁)p(w₂|w₁)P(w₃|w₁w₂)...P(w_n|w₁^n-1)

二元模型的前提是Markov假设（一个词的概率只依赖于其前面一个词），值为前一个词下的条件概率，不再是前面词序列下的条件概率。
P(w_n|w₁^n-1) => P(w_n|w_n-1)

N元模型词概率设为前N-1个词下的条件概率
P(w_n|w₁^n-1) => P(w_n|w_n-(N-1)^n-1)

计算下二元模型的词序列概率。
下图展示了一个语料库里各词出现次数

下图展示了二元词序列的出现次数及其各词概率

如(i want)词序列出现827次，i出现2533次，P(want|i) = 827/2533 = 0.33

通常概率计算转换为log概率，避免概率相乘过小溢出。存储的时候只记录log和，需要原始概率时再进行转换。
P₁P₂P₃P₄=e^{(lnP₁ + lnP₂ + lnP₃ + lnP₄)}
概率大小就存储为lnP₁ + lnP₂ + lnP₃ + lnP₄

posted @ 2017-03-10 19:20 春文秋武阅读(506) 评论(0) 收藏举报

刷新页面返回顶部