摘要: 阅读全文
posted @ 2015-06-28 16:03 porco 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 1.ID3选择最大化Information Gain的属性进行划分 C4.5选择最大化Gain Ratio的属性进行划分规避问题:ID3偏好将数据分为很多份的属性解决:将划分后数据集的个数考虑进去entropy(其中RF-relative frequency)Information Gain->ID3potential information of partitionGain Ratio->C4... 阅读全文
posted @ 2015-06-28 15:52 porco 阅读(677) 评论(0) 推荐(0) 编辑
摘要: CART树的构建:$function\ cart(D)$--$D$为数据1.如果到了终止条件(如:所有x都相同,或所有y都相同,或到了指定深度),返回叶子节点2.选择 分割方式,将数据分为左树$D_l$、右树$D_r$ 2部分3.$cart(D_l),cart(D_r)$分割方式(cart的分割方式不固定,此处采用decision stump):选择所有decision stump中,综合不纯度最... 阅读全文
posted @ 2015-06-28 15:46 porco 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 当模型复杂度上升时,可控制参数变多,VC dimension变大,当VC dimension过大时,虽然Ein很小,但是Eout很大,产生overfitting比喻:开车开太快 模型太复杂,VC维上升路况差 存在noise路况了解有限 N有限来自为知笔记(Wiz) 阅读全文
posted @ 2015-06-28 15:43 porco 阅读(175) 评论(0) 推荐(0) 编辑
摘要: vc约等于可调节参数的个数来自为知笔记(Wiz) 阅读全文
posted @ 2015-06-28 15:42 porco 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 对于d维的数据集,vc = d+1证明:$vc \geq d+1$ : 存在d+1个点可以被H shatter构造矩阵(注意加上$w_0$对应的$x_0$)注意x可逆,构造$w=X^{-1}y$,有$Xw=y-----sign(Xw)=y$$vc \leq d+1$ : 任意d+2个点不能被H shatter注意x向量是d+1维的(注意还有$x_0$),所以对与第d+2各向量,一定可以表示... 阅读全文
posted @ 2015-06-28 15:41 porco 阅读(223) 评论(0) 推荐(0) 编辑
摘要: ​由vc bound可以知道:$P(\exists h\in H~s.t~|E_{in}(h)-E_{out}(h)|>\epsilon)\\ \leq 4M_H(2N)exp(-\frac{1}{8}\epsilon^2N)\\ \leq 4(2N)^{k-1}exp(-\frac{1}{8}\e... 阅读全文
posted @ 2015-06-28 15:39 porco 阅读(405) 评论(0) 推荐(0) 编辑
摘要: 结论:当有break point时,$m_H(N)=O(N^{k-1})$bounding function:当break point = k,时成长函数$m_H(N)$的上限这样可以忽略假设集的不同,只考虑break point=k,N个点时,最多有几种0,1的组合(任意的k各点不能shatter... 阅读全文
posted @ 2015-06-28 15:35 porco 阅读(423) 评论(0) 推荐(0) 编辑
摘要: $P(|E_{in}-E_{out}|>\epsilon) \leq 2Me^{-2\epsilon^2N}$当M小时,能够保证Ein和Eout差不多,但是找不到比较小的Ein当M很大时,能找到比较小的Ein,但是不能保证Ein和Eout差不多所以,希望可以找到一个比较适合的M $m_H$表示和... 阅读全文
posted @ 2015-06-28 15:33 porco 阅读(687) 评论(0) 推荐(0) 编辑
摘要: 1.差的数据集的概念BAD D单个H,在抽出的样本(数据集上),满足$P(|E_{in}-E_{out}|>\epsilon)\leq 2e^{-2\epsilon^2N}$ 考虑以下情况,如果抽出的都是绿球(数据集D),此时$E_{in} =0 $,而实际上和$E_{out}$差别很大,此时称此数... 阅读全文
posted @ 2015-06-28 15:27 porco 阅读(232) 评论(0) 推荐(0) 编辑
摘要: 统计学场景:一个罐子中有红球和绿球,红球比例$v$未知,数量未知,如何得到红球比例?方法---随机抽样N个球,在其中红球占比为$u$由hoeffding可以知道:$P(|u-v|>\epsilon)\leq 2e^{-2\epsilon^2N}$对应到机器学习分类问题:目标函数为$f(x)$,现要估... 阅读全文
posted @ 2015-06-28 15:23 porco 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 题:如果资料D线性可分,PLA如何保证最后能得到最优解。 思路:假设$w_f$能够分割资料D,$w_{t+1}$经过更新$w_{t+1}=w_t + y_{n(t)}x_{n(t)}$后,与$w_f$更接近 两个向量更接近,则有$Z=\frac{w_f^Tw_t}{||w_f||||w_t||}$越... 阅读全文
posted @ 2015-06-28 15:18 porco 阅读(677) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2015-06-28 15:01 porco 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2015-06-28 14:57 porco 阅读(526) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2015-06-28 14:55 porco 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 三种收敛、中心极限定理、大数定理、delta方法 阅读全文
posted @ 2015-06-28 14:52 porco 阅读(128) 评论(0) 推荐(0) 编辑
摘要: A.对于连续随机变量来说,单个点的概率是没有意义的,都为0B.PDF值没有边界,可以大于1C.Q1,Q2(中分位),Q3分别为使F取得1/4,1/2,3/4的x值D.重要的离散分布 点分布、离散均匀分布【书中的{1,2,3,...k}不都取到,而是指1/2+1/3+1/6和为1的】 伯努... 阅读全文
posted @ 2015-06-28 14:50 porco 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 分部积分法放射粒子符合possion分布,证明 阅读全文
posted @ 2015-06-28 14:48 porco 阅读(146) 评论(0) 推荐(0) 编辑