书摘--统计自然语言基础
为什么统计自然语言近年来起来了,原因有四点:
-
计算机硬件的发展,存储量增加,计算增速
-
网络的普及,电子文本的涌现,降低了语料获取的难度
-
风向逐渐形成
-
现有的单纯的语法,不足以适用于自然语言的复杂性。迫使我们从实际语料中学习规律
统计自然语言的研究涉及传统自然语言处理的各个方面,例如语言分析、机器翻译、信息检索、文本分类。
基础知识
语言学的目的是为了能够描述和解释我们周围的语言现象,语言的结构,语言和物质世界的关系。关于语言的结构,有语法,有严格不严格之分。为了使语言的使用具有灵活性,我们需要放宽某些条件。为了解决什么是正确什么是不正确的表达。我们不把句子分类为合乎愈发的句子和不合乎语法的句子,而是着手去解决:语言中通常出现的形式是什么。用来识别模型的主要方法就是计数也就是统计,我们将对此问题建立一个统计语言模型。好,那么统计方法在文本中能学到什么:
一些偏理论的,工作重点在文本层面,不去过多思考语言表达的意思和书写形式之间的关系。对统计方法感兴趣的研究者更注重实践,再注重实践也会考虑到先验知识的影响,什么样的先验知识应该加入他们设计的语言模型,什么样的先验知识与他们设想的模型有很大出入。
- 理性主义认为信息在人类脑中重要的知识不是由感官得到的,而是提前固定在头脑中的,有遗传基因决定。他们在人工智能领域试图希望建立一个智能系统,并通过手工编码大量的先验知识和推理机制,以复制人类大脑语言的能力。因为他们而大部分都观察到了一个刺激贫瘠的问题,一来是孩子们在幼年时候听到的语言是一个有限的输入,他们要从这个有限的输入中学到像自然语言这样复杂的东西是非常困难的。他们就假定语言的关键部分是天生的,属于基因遗产的一部分
- 经验主义认为婴儿的大脑最初具有联想模式识别和概括的一般能力,这些能力可以通过丰富的感官输入,使孩子学习到自然语言的详细结构
为什么会有语料库这个东西呢,因为现实世界的语言的上下文关系可以使用文本来代替,一个文本就是一个和语料库,几个这样的文本就构成了语料库集合。为什么要用文本来代替语言,是因为英国的一人提出了‘你可以通过语境理解单词’(You shall know a word by the company it keeps)。
Zipf法则:统计一种语言中的所有的词在一个大型语料库中出现的次数并且安照他们出现的次数的大小顺序把这些词排列起来。发现一个词出现的频率\(f\) 和它排列位置之间的关系,设它的排列位置是\(r\) .这样Zipf法则就可以表示成为:
即,排在第五十位的词出现的次数大约是排在150位的词出现的次数的3倍
数学基础
随机试验:结果事先不能完全确定的实验。量子态
\(\Omega\) :一个样本空间或者基本事件空间,一个样本点或者基本事件的集合,一个试验所有可能结果之和、
其中所含样本点个数可以是可列个(离散)也可以是不可列个(连续)
事件 :样本点的集合,也可以成为样本空间的子集
\(\sigma-field\) :所有可测事件构成的集合。一个域代表者对加法和数乘封闭
概率函数:\(P\) ,在整个样本空间\(\Omega\) 下分配概率,即定义域是事件域,对应域是\(R\) ,值域是\([0,1]\) ,具有可列可加,完备性,非负 性、
概率函数也称为概率测度,样本空间加上事件域构成可测空间,可测空间加上出测度函数称为测度空间,当我的测度函数是将其定义域映射到\([0,1]\) 的时候,此时测度函数曾为概率测度,可测空间加上概率测度,称为概率空间。
我们把在做实验之前就可以判断出哪些事件更可能发生称为一种先验知识,条件概率正是表明这样一种关系,当不考虑已有知识对概率值的影响,原有的概率值称为事件的先验概率 prior probability,加入已有的知识后,原有的概率值会发生变化,称为事件的后验概率发posterior probability 。有独立也有条件独立。
贝叶斯定理,由条件概率和链式法则可以得到:
公式右边的\(P(A)\) 可以看作归一化常数,保证其妈祖概率的性质,完备性
不同于频率派未知参数是一个定值得观念,即先验知识稳定不变。贝叶斯学派认为位置参数也是可以由样本数据得到,通过得到的样本数据更新先验概率,更新未知参数,即当我们未完全了解随机事件出现结果得机制下,我们通过样本也就是更多的证据更新我的未知参数。
信息论基础
起初香浓的研究目的是如何破解第二次世界大战得敌方密码,但他感兴趣的是如何在非理想化的通信通道中传输尽可能多的信息。对于任何类型的信息源和信息通道,香农希望在理论上给出数据压缩率(通过熵\(H\) 表示,或者称为柯尔莫哥洛夫复杂度\(K\) 表示)和数据传输率的最高值
熵(entropy)(台湾叫做乱度)表示随机变量的不确定性的均值,随机变量的熵越大,表示其不确定性就越大,也就是能正确估计其值的概率就越小。熵的计算公式如下:
熵值度量了随机变量所包含的信息量的大小,单位为比特,所以我们取以二为低的对数。
随机变量的熵可以看作传输该随机变量表示的基本事件所需的平均信息长度,也就是说,我们希望以最有效的编码方式传送结果,最好的方式是用就是用乱度个比特来描述事件的不确定性。乱度熵也可以看成是求取期望。
前面的编码我们遵循一个原则,即尽可能使用较少的比特位数传送频率高的字符。
按照熵的定义,我们知道,首先熵具有非负性,当且仅当随机变量\(X\) 的值是定值时,其熵为0,即没有任何信息量可言。熵越大,信息量越大,不确定性越强。
熵越小,信息量越小,确定性越强。
香农借助信息论的概念,概括了信道通信的目标,即在信道存在噪声的情况下,优化通信信息的吞吐量和准确率
语言基础
词性parts of speech POS 名词(主体跟客体)动词形容词(描述名词的属性),判断一个词是否是属于同一类的最基本方式时替换测试。但是呢,许多词都有兼类的情况。
我们将词的类别分为两类,
开放类别又称词汇类别,指的是名词、动词、形容词这些有大量成员的词,同时还有源源不断的新词加入。
封闭类别又称词汇类别,指的是介词、限定词(of、on、the、a的词)等,他们只有少量的成员,且语法清晰
推荐指数:7星
难度指数:8星