1.2基本术语

特征向量:即示例,反映事件或对象在某方面的性质。例如,西瓜的色泽,敲声。

属性:例如 青绿 乌黑 清脆。

数据集:例如(色泽=青绿,根蒂=蜷缩,敲声=浊响),(色泽=浅白,根蒂=硬挺,敲声=清脆),(色泽=乌黑,根蒂=稍蜷,敲声=沉闷)……

例如,D = {X1X2,……,Xm}表示包含m个示例的数据集。

Xi = (xi1xi2;……;xid)每个示例有d个属性表述。

 

标记:预测结果信息,例如((色泽=青绿,根蒂=蜷缩,敲声=浊响),好瓜)。好瓜则为标记。

标记的集合,亦称:标记空间,输出空间。

样例:拥有标记信息的示例。用(xi,yi)表示样例。

 

分类:预测是离散值。例如:好瓜,坏瓜。

回归:预测的是连续值。例如:西瓜的成熟度0.89,0.37。输出空间y=R(实数集)

 

二分类:分正类,反类。样本空间--->输出空间 输出空间 = {+1-1} {0,1}

多分类:|输出空间y|>2

聚类:分成若干组

 

监督学习:回归,分类。

无监督学习:聚类。

独立同分布:样本服从一个未知的分布,获得的每个样本呢都是独立的从这个分布上采样获得的。

 

1.3假设空间

归纳学习:广义--->从样例中学习

          狭义:从训练数据中学得概念。

概念学习:(色泽=)^(根蒂=)^(敲声=)

 

假设空间:若色泽,根蒂,敲声,各有3种可能取值。

假设空间大小规模:4*4*4+1=653+1=4 的两个加1都是是通配符的情况。

 

 

对假设空间自顶向下搜索,即训练。

版本空间:多个假设与训练集一致,即存在着一个与训练集一致的假设集合。

 

1.4归纳偏好

我的理解:当在现有的模型中,出现新的样本,既可以归为正类,也可以归为反类。我们设定一个优先级,根据这个偏好去归纳。

奥卡姆剃刀:若有多个假设与观察一致,选最简单的那个。例如曲线A的描述方程要比B简单的多。自然偏好A

 

此时剃刀不适用。

 

假设样本空间和假设空间都是离散的.代表算法基于训练数据X产生假设h的概率,再令f代表我们学习的真实目标函数。的”训练集外误差”,即在训练集外的所有样本上的误差为

 

上面式中所有可能性之和自然是为1。

在问题出现的机会相同,所有问题同等重要,对于任意两个学习算法,其总误差相等,期望性能相同。

脱离具体问题谈算法的好坏无意义。

posted on 2016-12-07 16:34  kuotian  阅读(1643)  评论(0编辑  收藏  举报