摘要:
上一节的随机森林是 Bagging + DT,bagging和DT都是aggregation model 这一节从 Adaboost + DT 入手,从最优化的角度阐述了Adaboost干了啥,然后把Adaboost扩展至gradient boost,最后引出GBDT. 回忆一下adaboost方法 阅读全文
摘要:
上一节的决策树是一种aggregation model。这里开始讲 aggregation of aggregation。 RF就是使用bagging的方式把一堆树合起来。 之前讲过bagging能够减少算法的variance,而对决策树来说,data不同的话,切得点就会变,比较容易受data影响, 阅读全文
摘要:
决策树模型。 和前面几个介绍的几种aggretation方式的联系: blending是首先我们已经有g,只是去把它们融合; learning是一边学习g,一边(其实是最后)融合。bagging是uniform的方式融合,adaboost是linear的方式融合; 决策树是同时学到条件和g,然后利用 阅读全文
摘要:
Adaboost算法 通过对上一轮g犯的错误的强调,来学习下一轮的g,得到多个差异的g后进行线性组合得到G。 假设对不同的点,犯得错有不同的权重,最后的Ein是一个带权重的err求和 上一节讲到的bagging,如果同一个样本点被重复抽样,其实也就是有个类似u_n的权重。 现在通过类似的思路,用re 阅读全文
摘要:
blending和bagging都是 aggregation的方式。将许多不同的g组合成新的G. 首先引入几种aggregation的方式 selection的方法是从备选中挑出最好的模型,aggregation的方法则希望能够将多个weaker的模型融合一起变强。 适当的aggregation可能 阅读全文
摘要:
之前讲的hard-margin SVM,要做到把所有的点都正确分类,不允许有错误。这样的话会将noise也学进去。 我们可以退而求其次,能够允许一定程度的犯错(理解成放弃一些有可能noise的点),来增加模型的泛化能力 combination后,前半是希望w越小越好,后半是希望犯错越少越好,C用来控 阅读全文
摘要:
上一节说到,如果新的空间维度很高,计算耗时,那z的内积能不能先在原始x空间计算好了再应用到z空间呢? 举了一个转化到二阶空间的例子,其实可以先在x空间做内积,减少计算量 这种转换叫做kernel function 它将z'z的内积表示成x’x的函数。 经过替换,在SVM中一些式子的就可以如下表示。k 阅读全文
摘要:
支持向量机的对偶问题。 上节讲到可以用非线性变换将xn映射到zn,在z空间上求解SVM。 那要求解的w的维度变成新的d,如果d很大,那么QP求解变难。 希望将问题转化成对等的,只用求解N个变量的问题 之前讲正则化的时候,(间接地)使用了拉格朗日乘子法,将lamda看成c的一种替代,将有约束优化问题化 阅读全文
摘要:
线性支持向量机。 从PLA引入。对PLA而言,下面任何一条线都可能被选为g,其实我们直观上会觉得第三条线更好。 对以后要预测的点x假设和xn很接近,可以看做xn加上的一些noise,那么我们希望这样的x也能和xn的结果一样。 所以如果点和分隔平面距离大,那么可以认为平面能够容忍更多noise,更加健 阅读全文
摘要:
本节讲如何做模型选择。 对一个问题我们有M个模型,它们分别对应M个假设空间以及相应的算法。如何选择出一个最好的模型呢? 通过之前讲到的overfitting,我们知道Ein最好的不一定Eout好,但是我们其实是希望选出来的模型在Eout上表现尽可能好。 如果我们有额外的test数据,在test上的E 阅读全文
摘要:
正则化的思想,引入的方式:想改善高阶假设空间overfitting的状况,从高阶退回低阶,即限制w的某些维度使之为零。 通过放宽限制和使用软约束(softer constraint),问题改写成: 那如何求解右边的有约束最优化问题呢? 首先把Ein写成矩阵形式 如果没有约束,最优解就是linear 阅读全文
摘要:
从线性扩展到非线性。 对特征进行非线性变换后在新的特征空间的直线可以对应到原始空间的各种曲线上。 注意到将x进行变换到Q阶后,相应的w的维度增多,意味着新的假设空间的vc维变大,模型复杂度提升,泛化能力降低。(Ein与Eout不接近的可能性提高了) 然后说了各阶变换后的新假设空间的关系,如果随着vc 阅读全文
摘要:
overfitting产生的主要原因: 1.vc维过大,也就是模型复杂度过高。 2.noise过大,然后被机器学习拟合了。 3.数据量太少。 样本量与Eout的关系,对复杂度高的模型,在N小时更容易过拟合。 本节对模型复杂度的一个说法是 它相当于加入了noise,没太明白。。 noise、data以 阅读全文
摘要:
使用二分类的思想来完成多分类的任务。 one vs all 将某一类以外的作为另一类。问题是容易导致样本失衡。 one vs one 只看两个类别建立二元分类器。需要C_n_2个分类器…… 对预测的对象,在这些分类器上进行投票,选择投票最多的一类为预测的类别。 阅读全文
摘要:
线性回归的任务是对于一个输入,给出输出的实数,保证和真实输出相差越小越好。因为假设空间是线性的,所以最后的g会是直线或者平面。 通常的误差衡量方法是使用平方误差 接下来的问题是如何最小化 Ein 将Ein写成矩阵形式, 注意到Ein是w的函数,是连续的、可微的、凸函数。 对w求偏导使之为0则可以求出 阅读全文
摘要:
soft binary classification的概念:软二分类,不直接化为-1、1,而是给出一个概率值。 目标函数是一个概率值,但是拿到的data中y只有0、1(或者-1、1),可以看做是有noise的data。 logistic hypothesis 通过 theta 转化为 0、1间的数。 阅读全文
摘要:
论证了在有noise的情形下,机器依然可以学习。然后介绍了error 的几种衡量方法。 想象在抽取弹珠的过程中,弹珠会不断地变色,那么在抽出来的时刻,它的颜色对应一个概率分布。 类比到有noise的情形,就是 对一个x,本来是确定的,加入noise后, 对应到了一个概率分布。 即便如此,在变色弹珠抽 阅读全文
摘要:
为了引出VC维做了很长的铺垫。。VC维:用来描述假设空间的表达能力。 第四节讲到对有限的假设空间,只要N足够大,不管A如何选g,训练数据如何选取,g的训练错误率和真实的错误率都很接近。 现在先解决无限假设空间的问题。 希望找到一个 m_H 来替代无限大的M。 系数M的来源是因为对bad data的概 阅读全文
摘要:
hoeffding 不等式 说明了在样本量足够大时,抽样估计能够接近真实值。 类比到ml中,对给定的一个假设空间中的h, 它在整个样本空间中的表现可以由在部分样本点上的表现来近似。也就是说样本足够多的时候,Ein与Eout近似相等。 现在已经知道对任意给定的h,在N足够大时,Ein近似于Eout,如 阅读全文
摘要:
介绍了机器学习中的几类问题划分。 半监督学习能够避免标记成本昂贵的问题。 强化学习,可以看做是从反馈机制中来学习。 在线学习,数据一个接一个地产生并交给算法模型线上迭代。 主动学习,机器能针对自己没有信心的数据提问,得到答案后再学习。 针对特征空间也有分类,比如具体的特征、原始的(个人理解是人为可提 阅读全文