基于统计语言模型的分词方法
20世纪80年代更早提出的分词方法大部分是基于词表进行的,称为基于词表分词方法。近10年来,随着统计方法的迅速发展,人们提出很多基于统计的模型分词方法和规则方法与统计方法相结合的分词技术,称为基于统计模型的分词方法。
假设随机变量S为一个汉字序列,W是S上所有可能切分出来的词序列,分词过程应该是求解条件概率P(W|S)最大的词序列W',即
W' = argwmaxP(W|S) -------------------------------1
根据贝叶斯公式:P(AB) = P(A)P(B|A)
= P(B)P(A|B)
1式变为:
W' = argwmaxP(W)P(S|W)/P(S) --------2
由于分母为归一化因子,因此2式变为:
W' = argwmaxP(W)P(S|W) -----------------------3