概念学习

机器学习的中心问题就是从特殊的训练样例中归纳出一般函数,也就是在预定义的假设空间中搜索假设,使其与训练样例有最佳的拟合度。

概念学习:从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。

术语定义:

X  实例集合(所有可能的实例取值集合)

C  目标概念(待学习的概念或函数)

H  所有可能得假设空间

D  训练样例的集合,通常由<x,c(x)>表示

寻找一个假设h,使得对于X中所有的x都有h(x)=c(x).

归纳学习假设:任意假设如果在足够大的训练样例集中很好的逼近目标函数,它也可能在未见的实例中很好的逼近目标函数。

可以把找最佳拟合的过程看成是在假设空间中搜索的过程,这样就把学习问题转化为搜索问题,假设空间通用的自然结构(偏序)可以很好的利用在搜索的过程中。

Find-S(寻找极大特殊假设):

覆盖所有的正例,不处理任何反例,这样找出的假设h就是覆盖所有正例的最特殊假设。肯定比最终要找的假设c更特殊,c不会覆盖一个反例,所以h也不会覆盖一个反例。(前提是训练数据不包含错误,并且真正存在这样的假设)

缺点:1.不能确定是否收敛到最后的假设。2.找到的是最特殊的假设。3.训练样例中的错误和噪声很严重的破坏该算法。4.如果有多个极大假设,只能找到其中一个。

列表后消除算法:

找出所有满足训练样例的假设。初始化为假设空间。

候选消除算法:

找出一般边界和特殊边界,在边界之内的即是满足训练样例的所有假设。

由候选消除算法得到的变型空间收敛到目标概念的条件是:1.训练样例中没有错误。2.目标概念确实存在假设空间中。

候选消除中训练样例的选择:新选择的实例能够满足大约半数的假设,这样log(|vs|)次就可以得到目标概念。

之前一直在假设目标概念真正的存在于假设空间,这其实是概念学习中的归纳偏置问题,假如一开始定义的假设空间没有覆盖到最后要的目标概念,那么我们说这种假设是偏置的,也就是归纳偏置问题。

以上介绍的几种概念学习算法虽然在实际应用中应用不大(受噪声数据和归纳偏执的限制),但对于理解机器学习的整个框架是很有用的,故在此介绍。

posted on 2013-04-17 09:55  waxili  阅读(398)  评论(0编辑  收藏  举报

导航