摘要: 本节课主要讲述怎样在模型和参数之间做选择。 把已知的数据中分出一部分来当做validation的数据,用来验证我们hypothesis的表现。 validation和真实Eout的差距: 我们用validation得到最好的模型之后,再把所有的数据合起来再去做训练,因为N变大了,所以得到的结果的Eo 阅读全文
posted @ 2016-09-28 16:45 cyoutetsu 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 本节课主要讲述正则化。 既然我们说高复杂度的函数和低复杂度的函数是包含的关系,那我们通过'step back'的方式退回去就好了。 那么怎么样退回去呢? 其实,高次多项式和低次多项式的差别就在于w。只要我们限制了有多少个为零的w,就可以间接控制多项式的复杂度。转化成最优化的视角,就是找一些w使得Ei 阅读全文
posted @ 2016-09-28 15:59 cyoutetsu 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 本节课程主要讲述过拟合。 VC Dimension过大的时候会发生Bad Generalization,也就是Ein很低,但是Eout很高的情况。没有办法做举一反三的学习。 Ein越做越好,但是Eout却上升了。这种情况叫做过拟合。 欠拟合就是做的不好的情况,通过增加VC Dimension可以解决 阅读全文
posted @ 2016-09-28 13:44 cyoutetsu 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 本节课重要讲述非线性的问题怎么样才能变成线性的分类问题。 到目前为止,我们会用模型进行线性的分类(左图),但是遇到右图的样子的时候,还是不能用一条线将它们分开。 但是右图视觉上,明显是可以用一个圆来进行分类的,假设一个半径为0.6的圆: 将上面的方程式进行展开和赋值,通过转换,再一次把圆形的方程式换 阅读全文
posted @ 2016-09-28 11:42 cyoutetsu 阅读(521) 评论(0) 推荐(0) 编辑
摘要: 先复习一下已经学过的三个模型: 和他们关于error的衡量: 三种error的关系: 加上VC理论: 如此就证明了regression是可以用来替代classification的。下面是几种方法的优缺点: linear regression看起来是一个不错的方法,我们可以用它来设定PLA或者LR的w 阅读全文
posted @ 2016-09-28 10:41 cyoutetsu 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 如果我们想要知道的并不是绝对的是或者非,我们只想知道在是非发生的概率(只想知道概率,不想知道结果)是多少的时候: 虽然我们想要知道左边的完美数据,但是在实际生活中,我们只有右边的数据,也就是一些确定的结果,不可能有概率值这个事情让我们知道。而右边的数据可以看成是有噪声的不完美的数据。 怎么解决这样的 阅读全文
posted @ 2016-09-28 09:28 cyoutetsu 阅读(417) 评论(0) 推荐(0) 编辑
摘要: 线性回归。 从本节课开始,我会适当的结合一些《机器学习实战》中的相关知识点对各个模型做一个更加全面的归纳和总结。 继续试着用加权(打分)的方式对每一个输入x进行计算,得出的线性回归的模型为h(x)=WTX。衡量的目标是找一个向量W使得squared error最小。由于Ein≈Eout,所以我们还是 阅读全文
posted @ 2016-09-27 19:31 cyoutetsu 阅读(743) 评论(0) 推荐(0) 编辑
摘要: 本节课主要讲述当输入的data中含有噪声的时候,会不会对整个机器学习过程产生影响。 还是以从罐子里取弹珠为例: 如果我们将即将要取出来的弹珠动态概率化,弹珠的颜色是有一定概率变来变去的,也就是说在某一时刻,我们只知道取出来的弹珠有百分之多少的概率是某一种颜色,而不是直接确定地知道即将取出来的弹珠是什 阅读全文
posted @ 2016-09-27 15:44 cyoutetsu 阅读(392) 评论(0) 推荐(0) 编辑
摘要: 通过上节所学,有如下总结,从而大大的简化了成长函数。 在VC Bond理论中,可以有如下的替换: 由此得出可以让机器学习有效果的几个条件: 1.mH(N)在k有break point 2.N足够大 3.可以算出使得Ein最小的g VC Dimension is the formal name of 阅读全文
posted @ 2016-09-27 14:42 cyoutetsu 阅读(565) 评论(0) 推荐(0) 编辑
摘要: 本节课主要讲在机器学习中,机器如何做到举一反三。 上图可以得出结论,当N超过k的时候,mH的数量会越来越少。对未来成长函数的样子加了一个限制。 mH的数量其实是有一个上限的,这个上限就是关于N的一个多项式。引出定义bonding function B(N,k) 已知上限函数的break point是 阅读全文
posted @ 2016-09-27 13:47 cyoutetsu 阅读(893) 评论(0) 推荐(0) 编辑