摘要: 线性支持向量机。 从PLA引入。对PLA而言,下面任何一条线都可能被选为g,其实我们直观上会觉得第三条线更好。 对以后要预测的点x假设和xn很接近,可以看做xn加上的一些noise,那么我们希望这样的x也能和xn的结果一样。 所以如果点和分隔平面距离大,那么可以认为平面能够容忍更多noise,更加健 阅读全文
posted @ 2017-06-20 16:57 Akane 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 本节讲如何做模型选择。 对一个问题我们有M个模型,它们分别对应M个假设空间以及相应的算法。如何选择出一个最好的模型呢? 通过之前讲到的overfitting,我们知道Ein最好的不一定Eout好,但是我们其实是希望选出来的模型在Eout上表现尽可能好。 如果我们有额外的test数据,在test上的E 阅读全文
posted @ 2017-06-20 15:53 Akane 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 正则化的思想,引入的方式:想改善高阶假设空间overfitting的状况,从高阶退回低阶,即限制w的某些维度使之为零。 通过放宽限制和使用软约束(softer constraint),问题改写成: 那如何求解右边的有约束最优化问题呢? 首先把Ein写成矩阵形式 如果没有约束,最优解就是linear 阅读全文
posted @ 2017-06-20 15:52 Akane 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 从线性扩展到非线性。 对特征进行非线性变换后在新的特征空间的直线可以对应到原始空间的各种曲线上。 注意到将x进行变换到Q阶后,相应的w的维度增多,意味着新的假设空间的vc维变大,模型复杂度提升,泛化能力降低。(Ein与Eout不接近的可能性提高了) 然后说了各阶变换后的新假设空间的关系,如果随着vc 阅读全文
posted @ 2017-06-20 15:51 Akane 阅读(124) 评论(0) 推荐(0) 编辑
摘要: overfitting产生的主要原因: 1.vc维过大,也就是模型复杂度过高。 2.noise过大,然后被机器学习拟合了。 3.数据量太少。 样本量与Eout的关系,对复杂度高的模型,在N小时更容易过拟合。 本节对模型复杂度的一个说法是 它相当于加入了noise,没太明白。。 noise、data以 阅读全文
posted @ 2017-06-20 15:51 Akane 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 使用二分类的思想来完成多分类的任务。 one vs all 将某一类以外的作为另一类。问题是容易导致样本失衡。 one vs one 只看两个类别建立二元分类器。需要C_n_2个分类器…… 对预测的对象,在这些分类器上进行投票,选择投票最多的一类为预测的类别。 阅读全文
posted @ 2017-06-20 15:50 Akane 阅读(254) 评论(0) 推荐(0) 编辑
摘要: soft binary classification的概念:软二分类,不直接化为-1、1,而是给出一个概率值。 目标函数是一个概率值,但是拿到的data中y只有0、1(或者-1、1),可以看做是有noise的data。 logistic hypothesis 通过 theta 转化为 0、1间的数。 阅读全文
posted @ 2017-06-20 15:47 Akane 阅读(328) 评论(0) 推荐(0) 编辑
摘要: 线性回归的任务是对于一个输入,给出输出的实数,保证和真实输出相差越小越好。因为假设空间是线性的,所以最后的g会是直线或者平面。 通常的误差衡量方法是使用平方误差 接下来的问题是如何最小化 Ein 将Ein写成矩阵形式, 注意到Ein是w的函数,是连续的、可微的、凸函数。 对w求偏导使之为0则可以求出 阅读全文
posted @ 2017-06-20 15:47 Akane 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 论证了在有noise的情形下,机器依然可以学习。然后介绍了error 的几种衡量方法。 想象在抽取弹珠的过程中,弹珠会不断地变色,那么在抽出来的时刻,它的颜色对应一个概率分布。 类比到有noise的情形,就是 对一个x,本来是确定的,加入noise后, 对应到了一个概率分布。 即便如此,在变色弹珠抽 阅读全文
posted @ 2017-06-20 15:46 Akane 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 为了引出VC维做了很长的铺垫。。VC维:用来描述假设空间的表达能力。 第四节讲到对有限的假设空间,只要N足够大,不管A如何选g,训练数据如何选取,g的训练错误率和真实的错误率都很接近。 现在先解决无限假设空间的问题。 希望找到一个 m_H 来替代无限大的M。 系数M的来源是因为对bad data的概 阅读全文
posted @ 2017-06-20 15:45 Akane 阅读(429) 评论(0) 推荐(0) 编辑