摘要: import random as rdimport mathclass LogisticRegressionPySpark: def __init__(self,MaxItr=100,eps=0.01,c=0.1): self.max_itr = MaxItr se... 阅读全文
posted @ 2015-07-03 19:43 porco 阅读(820) 评论(0) 推荐(0) 编辑
摘要: SMO要点总结: SMO使用坐标上升的方法,求解SVM的最优解。和原始坐标上升方法的不同点在于: 1. 由于SVM的限制条件 ,所以不能只使用一个坐标,改为更新两个 2. 采用启发式方法,找到每次更新的坐标,而不是按顺序来 SMO的终止条件即,所有参数都符合KKT条件: 对应在margin以外的点 对应在margin上的点 对应在m... 阅读全文
posted @ 2015-06-30 23:04 porco 阅读(441) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2015-06-28 16:03 porco 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 1.ID3选择最大化Information Gain的属性进行划分 C4.5选择最大化Gain Ratio的属性进行划分规避问题:ID3偏好将数据分为很多份的属性解决:将划分后数据集的个数考虑进去entropy(其中RF-relative frequency)Information Gain->ID3potential information of partitionGain Ratio->C4... 阅读全文
posted @ 2015-06-28 15:52 porco 阅读(677) 评论(0) 推荐(0) 编辑
摘要: CART树的构建:$function\ cart(D)$--$D$为数据1.如果到了终止条件(如:所有x都相同,或所有y都相同,或到了指定深度),返回叶子节点2.选择 分割方式,将数据分为左树$D_l$、右树$D_r$ 2部分3.$cart(D_l),cart(D_r)$分割方式(cart的分割方式不固定,此处采用decision stump):选择所有decision stump中,综合不纯度最... 阅读全文
posted @ 2015-06-28 15:46 porco 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 当模型复杂度上升时,可控制参数变多,VC dimension变大,当VC dimension过大时,虽然Ein很小,但是Eout很大,产生overfitting比喻:开车开太快 模型太复杂,VC维上升路况差 存在noise路况了解有限 N有限来自为知笔记(Wiz) 阅读全文
posted @ 2015-06-28 15:43 porco 阅读(175) 评论(0) 推荐(0) 编辑
摘要: vc约等于可调节参数的个数来自为知笔记(Wiz) 阅读全文
posted @ 2015-06-28 15:42 porco 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 对于d维的数据集,vc = d+1证明:$vc \geq d+1$ : 存在d+1个点可以被H shatter构造矩阵(注意加上$w_0$对应的$x_0$)注意x可逆,构造$w=X^{-1}y$,有$Xw=y-----sign(Xw)=y$$vc \leq d+1$ : 任意d+2个点不能被H shatter注意x向量是d+1维的(注意还有$x_0$),所以对与第d+2各向量,一定可以表示... 阅读全文
posted @ 2015-06-28 15:41 porco 阅读(223) 评论(0) 推荐(0) 编辑
摘要: ​由vc bound可以知道:$P(\exists h\in H~s.t~|E_{in}(h)-E_{out}(h)|>\epsilon)\\ \leq 4M_H(2N)exp(-\frac{1}{8}\epsilon^2N)\\ \leq 4(2N)^{k-1}exp(-\frac{1}{8}\e... 阅读全文
posted @ 2015-06-28 15:39 porco 阅读(405) 评论(0) 推荐(0) 编辑
摘要: 结论:当有break point时,$m_H(N)=O(N^{k-1})$bounding function:当break point = k,时成长函数$m_H(N)$的上限这样可以忽略假设集的不同,只考虑break point=k,N个点时,最多有几种0,1的组合(任意的k各点不能shatter... 阅读全文
posted @ 2015-06-28 15:35 porco 阅读(423) 评论(0) 推荐(0) 编辑