[西瓜书习题] 第一章绪论

1.1 表1.1中若只包含编号为1，4的两个样例，试给出相应的版本空间

假设空间：假设数据集有n种属性，第i个属性可能的取值有种，加上该属性的泛化取值(*)，所以可能的假设有。再用空集表示没有正例，假设空间中一共种假设。

版本空间：现实问题中常面临很大的假设空间，我们可以寻找一个与训练集一致的假设集合，称之为版本空间。版本空间从假设空间剔除了与正例不一致和与反例一致的假设，它可以看成是对正例的最大泛化。

计算：版本空间的可以通过搜索假设空间来得到，这样需要遍历完整的假设空间。如果数据集中有正例，则可以先对一个正例进行最大泛化，得到2n个假设，然后再对这些假设进行剔除操作，可以适当精简计算量。

根据书中图1.2的做法，当只包含编号1和4的两个样例时，正例只有色泽=青绿根蒂=蜷缩敲声=浊响，以此正例进行最大泛化：

【色泽=青绿 ∧ 根蒂=蜷缩 ∧ 敲声=浊响】

【色泽=* ∧ 根蒂=蜷缩 ∧ 敲声=浊响】【色泽=青绿 ∧ 根蒂=* ∧ 敲声=浊响】【色泽=青绿 ∧ 根蒂=蜷缩 ∧ 敲声=*】

【色泽=* ∧ 根蒂=* ∧ 敲声=浊响】【色泽=* ∧ 根蒂=蜷缩 ∧ 敲声=】【色泽=青绿 ∧ 根蒂= ∧ 敲声=*】

一般情况下版本空间时正例的泛化（不包含样本正例，譬如书中图1.2），但由于数据集中只有1个正例，所以在版本空间中依然包含了这个样本的假设。

析取式：用析取真值连接词“∨”将两个或两个以上的命题联结而成的一种命题形式
合取式：用合取真值连接词“∧”将两个或两个以上的命题联结而成的一种命题形式
析合范式：多个合取式的析取

“假设空间中可能不存在与所有训练样本都一致的假设”：我的理解是指特征属性相同但标签不同。

回答1：

1). 通常认为两个数据的属性越相近，则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类，则认为它属于与他最临近几个数据的属性。

2). 也可以考虑同时去掉所有具有相同属性而不同分类的数据，留下的数据就是没误差的数据，但是可能会丢失部分信息。

回答2：

1). 定义一个阈值，只要训练后满足的样本数量百分比达到这个阈值即可。
2). 在训练过程中选择满足最多样本的假设。

NFL首先要保证真目标函数f均匀分布。对于X个训练数据的二分类问题，显然f共有种情况，其中一半是与假设一致的，也就是P(f(x) = h(x)) = 0.5.

因此，

其中应为常数，如果性能度量为错误率，二者各为0.5，则该值为1，如果为其他性能度量，根据网友的想法：，应当隐含这样的充分条件。

1). 广告推荐，内容推荐
2). 网站排名
3). 以图搜图
......

posted @ 2017-07-12 17:13 戴戴Day 阅读(3587) 评论(0) 编辑收藏举报

刷新页面返回顶部