所以燃

2013年11月14日

Data Mining --- Information theory:熵/条件熵/互信息(信息增益)/交叉熵(相对熵/KL距离)

摘要: 一、Jensen不等式若f为区间I上的凹函数,则Jensen不等式成立:这里若函数f为凹函数,则有:凹函数(上凸)如下图所示:归纳证明:Jessen不等式是凹函数的基本性质,在信息论中经常用到,常见的凹函数如下图:二、信息论1.熵(信息不确定性度量)2.联合熵3.条件熵4.互信息(信息增益)5.交叉... 阅读全文

posted @ 2013-11-14 18:27 Jizhiyuan 阅读(2001) 评论(0) 推荐(0) 编辑

Data Minig --- Decision Tree & ID3 & C4.5 & Gini Index

摘要: 一、决策树学习(适用于“属性-值”实例且输出值离散)决策树学习是一种逼近离散值目标函数的方法,这个方法学到的函数称为一棵决策树。学到的决策树可表示为多个if-then过程以提高可读性。主要算法有:ID3、ASSISTANT、C4.5。决策树的节点表示某个属性,每个分支对应一个属性值,叶子结点为实例所属的分类,整个决策树是实例属性值的合取析取式。图例如下:该决策树的表达式:二、ID3算法(每次选信息增益最大的属性)ID3算法步骤:a.对当前例子集合,计算各属性的信息增益b.选择信息增益最大的属性Aic.在Ai处取相同值的例子归于同一个子集,Ai取几个值就得几个子集d.依次对每种取值情况下的子集, 阅读全文

posted @ 2013-11-14 17:22 Jizhiyuan 阅读(1041) 评论(0) 推荐(0) 编辑

Machine Learning --- Boosting & AdaBoost & Bootstrap

摘要: 一、Boosting基本思想思想很朴素,“三个臭皮匠顶个诸葛亮”,由若干个弱分类器可组合成强分类器,通过调整样本的权重(概率)来迭代训练弱分类器(如decision tree),最后形成性能优异的强分类器(如SVM)。主要分为两个步骤:1.改变训练样本的权重分布;2.将弱分类器组合起来。算法内容如下:二、AdaBoost(多个弱分类器的线性组合)在Boosting思想下,AdaBoost算法诞生了(具体化了权重分配与弱分类器组合),算法内容很简单如下:图例如下:训练误差分析:弱分类器的错误率(因为弱分类器总比随机猜测好,随机猜测错误率0.5):则训练误差(训练误差随循环次数T指数下降):因此权 阅读全文

posted @ 2013-11-14 12:21 Jizhiyuan 阅读(1168) 评论(0) 推荐(0) 编辑

导航