机器学习:计算学习理论基础

1、基本概念

计算学习理论(computational learning theory)是通过“计算”来研究机器学习的理论,

  • 其目的是分析学习任务的本质,例如:在什么条件下可进行有效的学习,需要多少训练样本能获得较好的精度等,从而为机器学习算法提供理论保证。

2、PAC学习

计算学习理论中最基本的是概率近似正确(Probably Approximately Correct,简称 PAC) 学习理论。

我们将函数定义为:从自变量到因变量的一种映射;
对于机器学习算法,学习器也正是为了寻找合适的映射规则,即如何从条件属性得到目标属性。

从样本空间到标记空间存在着很多的映射,我们将每个映射称之为概念(concept)

  • 若概念c对任何样本x满足c(x)=y,则称c为目标概念,即最理想的映射,所有的目标概念构成的集合称为 “概念类”
  • 给定学习算法,它所有可能映射/概念的集合称为“假设空间”,其中单个的概念称为“假设”(hypothesis)
  • 若一个算法的假设空间包含目标概念,则称该数据集对该算法是可分(separable)的,亦称一致(consistent)的
  • 若一个算法的假设空间不包含目标概念,则称该数据集对该算法是不可分(non-separable)的,或称不一致(non-consistent)的

对于非线性分布的数据集,若使用一个线性分类器,则该线性分类器对应的假设空间就是空间中所有可能的超平面,显然假设空间不包含该数据集的目标概念,所以称数据集对该学习器是不可分的。

给定一个数据集D,我们希望模型学得的假设h尽可能地与目标概念一致,这便是概率近似正确(Probably Approximately Correct,简称PAC)

  • 即以较大的概率学得模型满足误差的预设上限。

PAC学习中一个关键因素是假设空间H的复杂度H 。

  • H包含了学习算法所有可能输出的假设,若在PAC学习中假设空间与概念类完全相同,即H = C ,这称为“恰PAC可学习” (properly PAC learnable); 直观地看,这意味着学习算法的能力与学习任务“恰好匹配”.

  • 然而,这种让所有候选假设都来自概念类的要求看似合理,但却并不实际,因为在现实应用中我们对概念类C通常一无所知,更别说获得一个假设空间与概念类恰好相同的学习算法,显然,更重要的是研究假设空间与概念类不同的情形.

一般而言,H越大,其包含任意目标概念的可能性越大,但从中找到某个具体目标概念的难度也越大

  • ∣H∣有限时,我们称H为“有限假设空间”,否则称为“无限假设空间”

3、有限假设空间

3.1、可分情形

可分情形意味着目标概念C属于假设空间H,即C∈H

容易想到一种简单的学习策略:既然D中样例标记都是由目标概念C赋予的,并且C存在于假设空间H中,那么,任何在训练集D上出现标记错误的假设肯定不是目标概念C.于是,我们只需保留与D一致的假设,剔除与D不一致的假设即可,若训练集D足够大,则可不断借助D中的样例剔除不一致的假设,直到H中仅剩下一个假设为止,这个假设就是目标概念C。

通常情形下,由于训练集规模有限,假设空间H中可能存在不止一个与D一致的“等效”假设,对这些等效假设,无法根据D来对它们的优劣做进一步区分。因此问题转化为:需要多大规模的数据集D才能让学习算法以置信度的概率从这些经验误差都为0的假设中找到目标概念的有效近似。

3.2、不可分情形

不可分情形指的是:目标概念不存在于假设空间中,这时我们就不能像可分情形时那样从假设空间中寻找目标概念的近似。但当假设空间H给定时,必然存一个假设的泛化误差最小,若能找出此假设的有效近似也不失为一个好的目标。

4、VC维

现实中的学习任务通常都是无限假设空间,例如d维实数域空间中所有的超平面等,因此要对此种情形进行可学习研究,需要度量假设空间的复杂度。这便是VC维(Vapnik-Chervonenkis dimension)的来源。

4.1增长函数

4.2对分和打散

假设空间H中不同的假设对于D中示例赋予标记的结果可能相同, 也可能不同;
尽管H可能包含无穷多个假设, 但其对D中示例赋予标记的可能结果数是有限的: 对m个示例, 最多有2^m2 个可能结果。对二分类问题来说,H中的假设对D中示例赋予标记的每种可能结果称为对D的一种“对分”
若假设空间H能实现示例集D上的所有对分, 则称示例集D能被假设空间H“打散”

4.3VC维


4.4Rademacher复杂度

Rademacher复杂度考虑了一定的数据分布,VC维的泛化误差是分布无关、数据独立的,而基于Rademacher复杂度的泛化误差界是与分布有关的,即其泛化误差界依赖于具体学习问题的数据分布。

5、稳定性

稳定性考察的是当算法的输入发生变化时,输出是否会随之发生较大的变化,输入的数据集D有以下两种变化:

  • 移除
  • 替换

若对数据集中的任何样本z,满足

即原学习器和剔除一个样本后生成的学习器对z的损失之差保持β稳定,称学习器关于损失函数满足β-均匀稳定性。

若学习算法符合经验风险最小化原则(ERM)且满足β-均匀稳定性,则假设空间是可学习的。稳定性通过损失函数与假设空间的可学习联系在了一起,区别在于:假设空间关注的是经验误差与泛化误差,需要考虑到所有可能的假设;而稳定性只关注当前的输出假设。

6、参考文献

《机器学习》周志华

posted @ 2022-08-13 11:32  朝南烟  阅读(312)  评论(0编辑  收藏  举报
body { color: #000; background-color: #e6e6e6; font-family: "Helvetica Neue",Helvetica,Verdana,Arial,sans-serif; font-size: 12px; min-height: 101%; background: url(https://images.cnblogs.com/cnblogs_com/caolanying/1841633/o_2009041…ly1geq8oc9owbj21hc0u0th5.jpg) fixed; } #home { margin: 0 auto; opacity: 0.8; width: 65%; min-width: 1080px; background-color: #fff; padding: 30px; margin-top: 50px; margin-bottom: 50px; box-shadow: 0 2px 6px rgba(100, 100, 100, 0.3); }