第一章 文字和语言vs数字和信息
通信原理:产生、传播、接收、反馈
信息传播模型:信息----(编码)-----信息----(解码)-----信息
(信源)编码和最短编码:常用字短、生僻字长
解码的规则,语法:语法是语言的编码和解码的规则
聚类:概念的概括和归类,文字的聚类带来一些歧义性
校验位:校验信息是否正确
双语对照文本,语料库和机器翻译
多义性和利用上下午消除歧义性
第二章 自然语言处理 从规则到统计
1956年达特茅斯夏季人工智能研究会:
28岁约翰•麦卡锡(图灵奖获得者)
28岁马文•明斯基(图灵奖获得者)
37岁罗切斯特
40岁香农(信息论的发明人)
40岁赫伯特•西蒙(图灵奖获得者)
28岁艾伦•纽维尔(图灵奖获得者)
会议讨论:人工智能、自然语言处理和神经网络等
第三章 统计语言模型
贾里尼克的出发点很简单:一个句子是否合理,就看它的可能性大小,可能性用概率来衡量
S表示一个有意义的句子
w1,w2,...,wn表示一连串特定顺序排列的词,n表示句子的长度
S在文本中出现的可能性就是数学上所说的S的概率P(S)
既然S=w1,w2,...,wn
P(S) = P(w1,w2,...,wn)
利用条件概率公式:S这个序列出现的概率等于每一个词出现的条件概率相乘
P(w1,w2,...,wn) = P(w1).P(w2|w1).P(w3|w1,w2)...P(wn|w1,w2,w2,...,wn-1)
条件概率
是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”。若只有两个事件A,B,那么,
其中T是一个阈值,一般在8-10左右,fgt表示经过古德-图灵估计后的相对频度。