10-11
统计学习理论是针对小样本的情况研究的
人的智慧一个很重要的方面是从实例中学习的能力,通过对已知的事实的分析总结出规律,预测不能直接观测的事实。最重的是举一反三,利用学习得到的规律,不但可以较好地解释已知的事实,而且对未来的现象和无法观测的现象做出正确的预测和判断,也称作推广能力,或者称为泛化能力,也就是从具体到一般的过程。
机器学习呢,就是使用计算机模拟这些能力,我们通过设计某种算法,使之能够通过对已知的数据进行学习,找到数据的内在相互依赖的关系,从而对未知数据进行预测和对其它性质进行判断,我们最关心的是推广能力。
传统统计学主要研究的是渐进理论,即当样本趋向于无穷多时的统计性质。在现实问题中我们面对的样本数目通常是有限的,虽然人们一直知道这一点,但是传统上仍以样本数目无穷多为假设来推导各种算法,希望得到这样的算法在样本数目较少的时候也能有较好的表现。但是,相反的情况是很容易出现的。神将网路的学习问题就是一个典型的代表,当样本数目有限时,本来一个很不错的学习机器却可能表现为很差的推广能力。
在有限样本情况下的统计学习问题。
本书的目标是基于经验数据进行函数估计的一般问题
- 基于经验数据最小化风险泛函的模型基础上对学习问题的表示
- 对于经验风险最小化原则的深入分析,
- 用经验风险最小化原则得到的风险的非渐近界
- 在这些界的基础上,控制小样本学习机器的推广能力原则
- 支持向量机的方法,在使用小样本估计函数时能够控制推广能力
SVM增加了特征的维度
作为一个特例,从一个范围较宽的密度的集合中估计密度函数的问题就是一个不适定问题。传统的理论研究的主题是从一个范围较窄的密度集合中估计密度(比如从一个由有限个参数决定的目睹集合,即所谓的密度的参数集合中进行估计),使用的是一种不言而喻的推理,最大似然法。如果把从中进行的密度集合加以扩展,就无法再使用这种推理方式。为了从范围宽的集合(非参数集合)中估计密度,必须采用某种方式,其中利用了正则化技术。当然了,这些方法的出发点是利用大量的样本来估计一个函数。
60年代,算法复杂度思想的提出,激发这一思想的是两个看上去不同的基本问题。
- 归纳推理的本质是什么
- 随机性的本质是什么
随机性的概念思想推述如下:对于一个长度为l的很长的数据串,如果不存在任何复杂度远小于l的算法能够产生出这个数据串,则他就构成了一个随机串。算法的复杂度是利用这个算法的最小程序的长度来衡量的。如果对穿的描述不能够被计算机压缩,则这个串就具有一个随机序列的一切性质。
60年代和70年代的学习问题主要目标是寻找从小数量样本出发进行归纳推理的最好途径。实验中观察到的所谓的过适应问题,实际上实在解决不适定问题的理论中称为错误结构的现象,从解决不适定问题的讨论中,人们得到了防止过学习的工具,在算法中采用正则化技术。
在本书中,把学习问题看作是利用有限数量的观测来寻找待求的依赖关系的问题。学习一个映射关系或者数据的分布