摘要: 一些挑战: 网络结构的选择。CNN的想法是对邻近的输入,有着相同的weight。 模型复杂度。 最优化的初始点选择。pre-training 计算复杂度。 包含pre-training的DL框架 如何做pre-training? 下面介绍了一种方式。 weight可以看做是对x做特征转换,那么希望在 阅读全文
posted @ 2017-06-21 11:24 Akane 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 介绍神经网络的基本概念以及Backprop的推导。 输入为x, 首先对x做一个线性变换到s,然后对s做(通常是非线性的)变换,作为下一层的输入。如果对s也是线性的,那整个网络就是线性的,就不需要那么多层了。 对 s 经常使用的一个是双曲余弦的变换tanh 在离原点比较远的地方,它比较像阶梯函数,在接 阅读全文
posted @ 2017-06-21 11:23 Akane 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 上一节的随机森林是 Bagging + DT,bagging和DT都是aggregation model 这一节从 Adaboost + DT 入手,从最优化的角度阐述了Adaboost干了啥,然后把Adaboost扩展至gradient boost,最后引出GBDT. 回忆一下adaboost方法 阅读全文
posted @ 2017-06-20 17:08 Akane 阅读(696) 评论(0) 推荐(0) 编辑
摘要: 上一节的决策树是一种aggregation model。这里开始讲 aggregation of aggregation。 RF就是使用bagging的方式把一堆树合起来。 之前讲过bagging能够减少算法的variance,而对决策树来说,data不同的话,切得点就会变,比较容易受data影响, 阅读全文
posted @ 2017-06-20 17:07 Akane 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 决策树模型。 和前面几个介绍的几种aggretation方式的联系: blending是首先我们已经有g,只是去把它们融合; learning是一边学习g,一边(其实是最后)融合。bagging是uniform的方式融合,adaboost是linear的方式融合; 决策树是同时学到条件和g,然后利用 阅读全文
posted @ 2017-06-20 17:06 Akane 阅读(438) 评论(0) 推荐(0) 编辑
摘要: Adaboost算法 通过对上一轮g犯的错误的强调,来学习下一轮的g,得到多个差异的g后进行线性组合得到G。 假设对不同的点,犯得错有不同的权重,最后的Ein是一个带权重的err求和 上一节讲到的bagging,如果同一个样本点被重复抽样,其实也就是有个类似u_n的权重。 现在通过类似的思路,用re 阅读全文
posted @ 2017-06-20 17:05 Akane 阅读(212) 评论(0) 推荐(0) 编辑
摘要: blending和bagging都是 aggregation的方式。将许多不同的g组合成新的G. 首先引入几种aggregation的方式 selection的方法是从备选中挑出最好的模型,aggregation的方法则希望能够将多个weaker的模型融合一起变强。 适当的aggregation可能 阅读全文
posted @ 2017-06-20 17:04 Akane 阅读(1772) 评论(0) 推荐(0) 编辑
摘要: 之前讲的hard-margin SVM,要做到把所有的点都正确分类,不允许有错误。这样的话会将noise也学进去。 我们可以退而求其次,能够允许一定程度的犯错(理解成放弃一些有可能noise的点),来增加模型的泛化能力 combination后,前半是希望w越小越好,后半是希望犯错越少越好,C用来控 阅读全文
posted @ 2017-06-20 17:03 Akane 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 上一节说到,如果新的空间维度很高,计算耗时,那z的内积能不能先在原始x空间计算好了再应用到z空间呢? 举了一个转化到二阶空间的例子,其实可以先在x空间做内积,减少计算量 这种转换叫做kernel function 它将z'z的内积表示成x’x的函数。 经过替换,在SVM中一些式子的就可以如下表示。k 阅读全文
posted @ 2017-06-20 17:02 Akane 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 支持向量机的对偶问题。 上节讲到可以用非线性变换将xn映射到zn,在z空间上求解SVM。 那要求解的w的维度变成新的d,如果d很大,那么QP求解变难。 希望将问题转化成对等的,只用求解N个变量的问题 之前讲正则化的时候,(间接地)使用了拉格朗日乘子法,将lamda看成c的一种替代,将有约束优化问题化 阅读全文
posted @ 2017-06-20 17:01 Akane 阅读(413) 评论(0) 推荐(0) 编辑