数学之美 - 仙路尽头谁为峰

公告

数学之美

第一章文字和语言vs数字和信息

　　通信原理：产生、传播、接收、反馈

　　信息传播模型：信息----（编码）-----信息----（解码）-----信息

　　（信源）编码和最短编码：常用字短、生僻字长

　　解码的规则，语法：语法是语言的编码和解码的规则

　　聚类：概念的概括和归类，文字的聚类带来一些歧义性

　　校验位：校验信息是否正确

　　双语对照文本，语料库和机器翻译

　　多义性和利用上下午消除歧义性

第二章自然语言处理从规则到统计

　　1956年达特茅斯夏季人工智能研究会：

　　　　28岁约翰•麦卡锡（图灵奖获得者）

　　　　28岁马文•明斯基（图灵奖获得者）

　　　　37岁罗切斯特

　　　　40岁香农（信息论的发明人）

　　　　40岁赫伯特•西蒙（图灵奖获得者）

　　　　28岁艾伦•纽维尔（图灵奖获得者）

　　　　会议讨论：人工智能、自然语言处理和神经网络等

第三章统计语言模型

　　贾里尼克的出发点很简单：一个句子是否合理，就看它的可能性大小，可能性用概率来衡量

　　S表示一个有意义的句子

　　w₁,w₂,...,w_n表示一连串特定顺序排列的词，n表示句子的长度

　　S在文本中出现的可能性就是数学上所说的S的概率P(S)

　　既然S=w₁,w₂,...,w_n

　　P(S) = P(w₁,w₂,...,w_n)

　　利用条件概率公式：S这个序列出现的概率等于每一个词出现的条件概率相乘

　　P(w₁,w₂,...,w_n) = P(w₁).P(w₂|w₁).P(w₃|w₁,w₂)...P(w_n|w₁,w₂,w_₂,...,w_{_n-1})

　　条件概率

　　是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为：P（A|B），读作“在B的条件下A的概率”。若只有两个事件A，B，那么，

　　联合概率

　　表示两个事件共同发生的概率。A与B的联合概率表示为 P(AB) 或者P(A,B),或者P(A∩B)。

　　马尔科夫假设：假设任意一个w_i词出现的概率只用它前面的词w_i-1有关

　　P(S) = P(w₁).P(w₂|w₁).P(w₃|w₂)...P(w_n|w_{_n-1})

　　根据大数定理，只要统计量足够，相对频度就等于概率

　　P(w_n-1,w_{_n}) ≈ #(w_n-1,w_{_n}) / #

　　P(w_{_n-1}) ≈ #(w_n-1) / #

　　P(w_n|w_{_n-1}) = #(w_n-1,w_{_n}) / #(w_n-1)

　　高阶语言模型

　　假设文本中的每次w_i和前面N-1个词有关，而与更前面的词无关

　　P(w_i|w₁,w₂,w_₂,...,w_{_i-1}) = P(w_i|w_i-N+1,w_i-N+2,...,w_{_i-1}) 这种假设称为N-1阶马尔科夫假设，对应的语言模型称为N元模型

　　古德-图灵估计原理：对于没有看见的事件，我们不能认为它发生的概率就是零，因此我们从概率总量中，分配一个很小的比例给这些没有看见的事件

　　其中T是一个阈值，一般在8-10左右，fgt表示经过古德-图灵估计后的相对频度。

第四章谈谈分词

第五章隐含马尔科夫模型

posted on 2019-02-15 10:42 仙路尽头谁为峰阅读(219) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部