【数学之美】第3章 统计语言模型
用数学的方法描述语言规律
贾里尼克:一个句子是否合理,等同于判断其可能性的大小,用概率来衡量
Markov模型:简化条件概率运算。
二元模型 Bigram model,N元模型
为什么合理?上下文相关,短程依赖。
不足之处:忽略长程依赖性 Long Distance Dependency
N的取值?tradeoff,同时关注:效果的提升,资源的耗费
模型训练的问题:零概率问题(不平滑)
解决办法:平滑方法
理论基础:
Good-Turing Estimate: 相信可靠的统计数据,对不可信的统计数据打折扣,将折扣出来的小部分概率给予为看见的事件 (Unseen Events)
(IBM)Katz backoff
语料的选取问题:训练语料尽量和模型应用的领域相结合
训练数据尽可能多。但在某些领域(如机器翻译的双语语料)训练数据很少,无法追求大量数据
需要过滤训练数据