第四章语言模型与中文分词

1. 马尔可夫 Markov chain / hidden Markov model

　　Markov Property: 现在的状态只与前一时刻有关

　　

　　

2. Tri-Gram Model

　　1) 上一讲的 Bag-of-Words 属于 Uni-Gram ：代表每一个词之间没有关联关系

　　2）Bi-Gram 代表每一个两元组之间存在关系：

　　　　例如：我爱北京天安门（ABCD）每一个词出现概率都与前面有关 ‘天安门’与‘北京’有关

　　3）Tri-Gram Model:

　　　　求一个词概率时，将考虑前两个词 P（‘北京’） = P（北京|我，爱）

　　

　　4） c(u,v) 代表一个二元组出现次数，c(u,v,w) 代表三元组出现次数

　　　　* 代表无/任意词； c(*,*)代表任意二元组出现次数

3. N-Gram Model

　　根据马尔可夫特性，根据统计频率，来计算概率

　　

4. Language Model Evaluation

　　perplexity: 可以更改不同Model ,Uni-gram,Bi,Tri 分别计算perplexity，看哪个最好

　　perplexity越小越好

5. Entropy

　　1）

　　2） Cross-Entropy

　　

　　

　　3) Dara Compression

　　 2)中的交叉熵为 Hp（q） = q（x）* log (1/p(x))这里例子里假设所有的 q(x)都是均等的，所以直接 -1/7

　　这里bi-gram只需要6个bits，unigram则需要11个

　　

　　

6. interpolation

　　1) 结合不同的 n-gram 比如 2-gram , 3-gram , 和Uni-gram

　　

　　

7. Bayesian Model

　　1）贝叶斯应用：语音识别给定音频X，对应的单词Y

　　

　　2）朴素贝叶斯模型，进行垃圾邮件分类

　　　　1.假定邮件E中每一个单词都是独立的，即可使用累乘

　　　　2.每一个单词的概率计算 = c(x|y=1) / c(y=1) ；即label为垃圾邮件中，某单词出现次数 / 垃圾邮件总数

　　　　3. 累乘时，若有单词在之前的样本中出现次数为0，就假设出现一次，即该P设为 1/V V为样本总量

　　3） Bayesian Probability model 检测 Spelling Correction

　　

　　　　

　　

　　

　　

　　　 P（C|W）正比于 P（W|C）与 P（C）

　　　　P（C）Language Model可通过词频计算获得

　　　　P（W|C）Error Model 可通过以下计算

　　　　单词出错有一下几种：

　　　　1） Substitution：某个字母发生替换 n*（26-1）种情况 P（W|C） = 1/n*25

　　　　2） deletion：删了某一个 n P（W|C） = 1/ n

　　　　3）insertion：插入某一个（n+1）*26 P（W|C） = 1/（n+1）*26

　　　　4）swap：调换位置 n！ P（W|C） = 1/ n!

　　candidate model：

　　4) Acoustic Model (声学模型)and Language Model

　　

　　5） Machine Translation

　　

8. Chinese Word Segmentation

　　有时英文连在一起，也需要分词。

　　

　　中文一个拼音可对应多个汉语词组 qingtian，英文一个音标所对应单词少 television

　　

　　1） Maximum Matching

　　　　尽可能取最长的词，词典中找最大匹配

　　　　Bi-direction Matching 从左到右和从右到左同时匹配最长，取出现概率最大的词语分法

　　　　2） N-gram

　　　　例子： Bi-gram 看几种分发哪种概率更大

　　　　

　　3） Optimal Path

　　动态规划

　　

　　4）分词库 jieba

posted @ 2020-08-27 14:32 ChevisZhang 阅读(258) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部