第1章 语言和文字 VS数字和信息
1.不同的文明,由于地域的原因。历史上相互隔绝。便会有不同的文字。随着文明的融合与冲突,不同文明下的人们须要交流,或者说通信,那么翻译的需求便产生了。翻译这件事之所以能达成。不过由于不同的文字系统在记录信息的能力上是等价的。(这个结论非常重要)进一步讲。文字不过信息的载体,而并不是信息本身。
那么不用文字,而用其他的载体(比方数字)能否够存储相同意义的信息呢?这个答案是肯定的,这也是我们今天现代通信的基础。(page4)
2.罗塞塔石碑的两点指导意义。1)信息冗余是信息安全的保障。 2)语言的数据。我们称之为语料,尤其是双语或者多语的对比语料对翻译至关重要,它是我们从事机器翻译研究的基础。(page6)
3.在罗马体系的文字中,整体来讲,经常使用字短,生僻字长。这全然符合信息论证最短编码的原理。(page11)
4.通信时,假设信道较宽,信息不必压缩就能够直接传递;而假设信道非常窄,信息在传递之前就要尽可能地压缩。然后在接收端解压缩。(page11)
第2章 自然语言处理---从规则到统计
1.基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至是同样的。因此。在数学意义上自然语言处理又和语言的初衷--通信联系在了一起。(page26)
2.自然语言在演变的过程中,产生了词义和上下文相关的特性。因此,它的文法是上下文有关文法。而程序语言是我们人为设计的,为了便于计算机解码的上下文无关文法,相比自然语言简单的多。理解两者的计算量不可同日而语。(page21)
第3章 统计语言模型
1.自然语言从它产生開始。逐渐演变成一种上下文相关的信息表达和传递的方式。因此让计算机处理自然语言,一个主要的问题就是为自然语言这样的上下文相关特性建立数学模型。这个数学模型就是自然语言处理中常说的统计语言模型。它是今天全部自然语言处理的基础。而且广泛应用与机器翻译、语音识别、印刷体和手写体识别、拼写纠错、汉字输入和文献查询(page27)。
2.统计模型:推断一个句子是否合理,就看看它的可能性大小怎样。至于可能性就用概率来衡量。这种方法更普通而严格的描写叙述是:假定S表示某个有意义的句子,由一连串特定顺序排列的词w1,w2,...,wn组成,这里n是句子的长度。如今。我们想知道S在文本中出现的可能性,也就是数学上所说的S的概率P(S)。(page28)
3.模型的训练。 使用语言模型须要知道模型中全部的条件概率,我们称之为模型的參数。通过对语料的统计,得到这些參数的过程称作模型的训练。(page33)
第4章 谈谈中文分词
1.在第3章谈到能够利用统计语言模型进行自然语言处理,而这些语言模型是建立在词的基础之上的,由于词是表达语义的最小单位。对于汉语,词之间没有明显的分界符,因此须要对句子分词。才干做进一步的自然语言处理。(page41)
2.分词器示意图在page44,图4.1.
3.中文分词以统计语言模型为基础,经过几十年的发展和完好,今天基本上能够看做一个已经解决的问题。不同的分词器有好有坏。基本的区别在于:数据的使用和project实现的精度。(page48)
第5章 隐含马尔可夫模型
1.隐含马尔可夫模型是一个并不复杂的数学模型,到眼下为止,它一直被觉得是解决大多数自然语言处理问题最为高速、有效的方法。它成功地攻克了复杂的语音识别、机器翻译等问题。当我们看完这些复杂的问题是怎样通过简单的模型描写叙述和解决时。会不得不由衷的感叹数学模型之妙。
(page51)
2.隐含马尔可夫模型的定义和图示在page53和page54。
3.环绕着马尔可夫模型有三个基本问题:
(1).给定一个模型,怎样计算某个特定的输出序列的概率。(通过Forward-Backward算法解决)
(2).给定一个模型和某个特定的输出序列,怎样找到最可能产生这个输出的状态序列。(通过维特比算法解决)
(3).给定足够量的观測数据,怎样预计隐含马尔科夫模型的參数。(通过鲍姆-韦尔奇算法解决)(page55)
4.隐含马尔科夫模型最初应用与通信领域,继而推广到语音和语音处理中。成为连接自然语言处理和通信的桥梁。同一时候隐含马尔科夫模型也是机器学习的主要工具之中的一个。和差点儿全部的机器学习的模型工具一样。它须要一个训练算法(鲍姆韦尔奇算法)和使用时的解码算法(维特比算法),掌握了这两类算法,就基本上能够使用隐含马尔科夫模型这个工具了。
(page58)
第6章 信息的度量和作用
1.香农在他的论文“通信的数学原理”。提出了信息熵(shang)的概念,解决的信息的度量问题,而且量化出信息的作用。(page59)
2. 一条信息的信息量和它的不确定性有着直接的关系。比方说,我们要搞清楚我们一无所知的事情,就须要了解大量的信息。所以,从这个角度来看,能够觉得。信息量就等于不确定性的多少。(page59)
3.信息熵的公式在page60。公式6-1.信息熵一般用H表示,单位是比特。随意一个随机变量X。它的熵的定义例如以下:公式6-2。 变量的不确定性越大,熵也就越大。把它搞清楚须要的信息量也就越大。(page61)
4.关于冗余度:假设一本书反复的内容非常多。它的信息量就小,冗余度就大。不同的语言冗余度区别非常大,而汉语在全部的语言中是冗余度较小的。(page61)
5.信息的作用 自古以来,信息和消除不确定性是相联系的。信息是消除系统不确定性的唯一办法。 一个事物内部存在着随机性,也就是不确定性,假定为U,而从外部消除这个不确定性唯一的办法是引入信息I,而引入的信息量取决于这个不确定性的大小,即I>U才行。当I<U时,这些信息能够消除一部分不确定性,也就是说新的不确定性U'=U=I。(page63)
6.网页搜索本质就是从大量的网页中,找到用户输入的搜索词最相关的几个网页。网页搜索本质也是利用信息消除不确定性的过程。假设提供的信息量只是多,比方搜索词是经常使用的关键词。诸如”中国“、”经济“之类的,那么会有非常多相关的结果,用户可能还是无法选择。这是正确的做法是挖掘新的隐含的信息,比方网页本身的质量信息。假设这些信息还是不够消除不确定性,最好还是再问问客户(能否提供很多其它的信息)。这就是相关搜索的理论基础。合理利用信息,而不是玩什么公式和机器学习算法,是做好搜索的关键。(page63)
7.”相关“的信息也可以消除不确定性,为此。须要引入条件熵的概念(公式6-5)。概括:信息的作用在于消除不确定性,自然语言处理的大量问题就是寻找相关的信息。(page64)
8.互信息:这一概念作为对两个随机事件“相关性”的量化度量。机器翻译中,最难的两个问题之中的一个是词义的二义性(还有一个是。语义的二义性吧)问题。
比方Bush一词能够使美国总统布什的名字,也能够是灌木丛的意思。解决问题真正简单却很有用的方法是使用互信息。
详细的解决方法大致例如以下:首先从大量文本中找出和总统布什一起出现的互信息最大的一些词。比方总统。美国,国会,华盛顿等等,当然用相同的方法找出和灌木丛一起出现的互信息最大的词,比方土壤、植物、野生等等。有了这两类词,在翻译Bush时。看看上下文中哪类相关的词多就能够了。
(page67)
9.相对熵也是用来衡量相关性,但和变量的互信息不同,它用来衡量两个取值为正数的函数的相似性。利用相对熵能够得到信息检索中最重要的一个概念:词频率-逆向文档频率。(page68)
10. 信息熵不仅是对信息的量化度量。并且是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有非常强的指导意义。
信息熵的物理含义是对一个信息系统不确定性的度量,这一点上,它和热力学中熵的概念同样。由于后者是对于一个系统无序的度量。