yangyang12138

导航

语言模型

1.概述

通俗的讲就是通过语料,计算某个句子出现的概率

 

对于一个由l个基元(“基元”可以为字、词或短语等,为了表述方便,以后我们只用“词”来通指)构成的句子 s = w1w2s3……wl,其概率计算公式为

p(s) = p(w1)p(w2|w1)……p(wl|w1w2……wl-1)

 = ∏ p(wi|w1w2……wi-1)

 

简化形式取NGram

以二元语法模型为例,

p(s) = ∏ p(wi|wi-1)

 

p(wi|wi-1) = c(wiwi-1)/∑c(wi-1wi)

 

2.语言模型评价

交叉熵

对于句子(t1,t2,……tn)构成的数据集T,可以通过计算T中所有句子概率的乘积来计算数据集的概率P(T)

p(T) = ∏ p(ti)

H(T) = - logp(T)/Wt

posted on 2020-03-21 01:04  杨杨09265  阅读(177)  评论(0编辑  收藏  举报