语言模型

1.概述

通俗的讲就是通过语料，计算某个句子出现的概率

对于一个由l个基元(“基元”可以为字、词或短语等，为了表述方便，以后我们只用“词”来通指)构成的句子 s = w1w2s3……wl，其概率计算公式为

p(s) = p(w1)p(w2|w1)……p(wl|w1w2……wl-1)

= ∏ p(wi|w1w2……wi-1)

简化形式取NGram

以二元语法模型为例，

p(s) = ∏ p(wi|wi-1)

p(wi|wi-1) = c(wiwi-1)/∑c(wi-1wi)

2.语言模型评价

交叉熵

对于句子(t1,t2,……tn)构成的数据集T，可以通过计算T中所有句子概率的乘积来计算数据集的概率P(T)

p(T) = ∏ p(ti)

H(T) = - logp(T)/Wt

posted on 2020-03-21 01:04 杨杨09265 阅读(182) 评论(0) 编辑收藏举报

刷新页面返回顶部

yangyang12138