摘要: Bagging策略 1.总样本数量是n个,从样本中重采样(有放回的)选出n个样本 ,会有约33.2%的样本不会被抽到 2.在所有属性上对这n个样本建立分类器(比如决策树,svm,lr) 3.重复步骤1和2m次,建立了m个分类器 4.将数据放在这m个分类器上,根据这m个分类器的投票结果决定数据属于哪一 阅读全文
posted @ 2017-03-01 21:30 fisherinbox 阅读(3886) 评论(0) 推荐(0) 编辑
摘要: 1.信息增益的定义,也就是互信息 2.信息增益的推导 由公式即可得到信息增益 信息增益存在偏向于选择取值较多的特征的问题,信息增益比可以对这一问题进行修正 3.信息增益比 4.基尼指数,基尼指数越大,样本集合的不确定性也就越大,与熵类似 5.ID3算法,使用信息增益作为特征选择准则,递归选择信息增益 阅读全文
posted @ 2017-03-01 21:14 fisherinbox 阅读(178) 评论(0) 推荐(0) 编辑
摘要: Lagrange的推导,为什么是先求最大值再求最小值 当b,w不满足条件时,也就是说这一项是大于零的,因为an也是非负的,所以后面这一项是始终大于等于零的,如果求最大值会趋向于无穷大。 当b,w满足条件时,这一项是小于等于零的,因为an也是非负的,所以后面这一项是始终小于等于零的,如果求最大值则是零 阅读全文
posted @ 2017-03-01 16:57 fisherinbox 阅读(216) 评论(0) 推荐(0) 编辑