2015年7月16日

摘要: Hoeffding公式为\epsilon]\leq{2e^{-2\epsilon^2N}}">如果把Training error和Test error分别看成和的话,Hoeffding告诉我们,取样出来的v和总的u大部分是比较接近的,很小的概率是差很远的,即Ein和Eout差很远,这种情况称为Bad sample.本来只有一个coin,丢5次,5次head的概率就是1/32。现在有150个coin... 阅读全文
posted @ 2015-07-16 22:15 CaseyZ 阅读(650) 评论(0) 推荐(0) 编辑

2015年7月15日

摘要: 对于PLA, pocket, linear regression, logistic regression,这些gradient descend的方法,我们可以选择迭代的次数,学习率,也可以选择对原来的feature进行多项式的转换映射到高维空间。为了防止overfitting,regularizer可以选择l1-norm,l2-norm, symmetry regularizer,以及penal... 阅读全文
posted @ 2015-07-15 17:43 CaseyZ 阅读(262) 评论(0) 推荐(0) 编辑

2015年6月26日

摘要: Hypothesis set可以表示如下。 可以看出H2=H3 when w3=0。或者H2=H10 when w3…w10=0。 因此可以得出结论 上篇文章说到,H2中找到的h*的Eout会比H10中找到的h*的Eout要小,因为H10中的h*产生了overfitting。 假如说现在要在H10中找h*,那么就是要 (1) 如果要在H2中找h*,也可以做(1... 阅读全文
posted @ 2015-06-26 20:37 CaseyZ 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 对于一个model,如果Ein(h)小,而Eout(h)大时,说明该h的generalization差。 一个算法在选择h的过程中,如果出现Ein(h) lower, Eout(h) larger,则说明产生了overfitting。 产生overfitting的原因有: 1.noise 2.limit data size 3.太大(model的复杂度) Noise stoch... 阅读全文
posted @ 2015-06-26 12:40 CaseyZ 阅读(492) 评论(0) 推荐(0) 编辑

2015年6月13日

摘要: PCA不考虑label,属于unsupervised,那么LDA就是考虑了y的label。 对于binary classification,如果有N个,其中有N1个y=1,N2个y=0.现在我们想把d个特征减少到只有1个,同时还要保证降维后,它们能够最大程度的区分开。现在要做的是找到一个向量,另x投影到w,用d表示。这里的y是x到w上的投影点之间的距离。 首先计算每类样例的均值,因为是bina... 阅读全文
posted @ 2015-06-13 17:39 CaseyZ 阅读(252) 评论(0) 推荐(0) 编辑
摘要: Test post 阅读全文
posted @ 2015-06-13 17:36 CaseyZ 阅读(85) 评论(0) 推荐(0) 编辑

导航