语言模型
1.概述
通俗的讲就是通过语料,计算某个句子出现的概率
对于一个由l个基元(“基元”可以为字、词或短语等,为了表述方便,以后我们只用“词”来通指)构成的句子 s = w1w2s3……wl,其概率计算公式为
p(s) = p(w1)p(w2|w1)……p(wl|w1w2……wl-1)
= ∏ p(wi|w1w2……wi-1)
简化形式取NGram
以二元语法模型为例,
p(s) = ∏ p(wi|wi-1)
p(wi|wi-1) = c(wiwi-1)/∑c(wi-1wi)
2.语言模型评价
交叉熵
对于句子(t1,t2,……tn)构成的数据集T,可以通过计算T中所有句子概率的乘积来计算数据集的概率P(T)
p(T) = ∏ p(ti)
H(T) = - logp(T)/Wt