摘要: cart 算法采用二分递归回归技术,将当前的样本集分为两个子样本集,使得生成得每个非叶子节点都有两个分支。所以,算法生成得决策树是简洁得二叉树。分类树得两个基本思想:第一个是将训练样本进行递归地划分自变量空间进行建树得想法,第二个想法是用验证数据进行剪枝。cart进行属性分类得是用gini指标如果我们用k,k=1,2,3……C表示类,其中C是类别集Result的因变量数目,一个节点A的GINI不纯度定义为:其中,Pk表示观测点中属于k类得概率,当Gini(A)=0时所有样本属于同一类,当所有类在节点中以相同的概率出现时,Gini(A)最大化,此时值为(C-1)C/2。对于分类回归树,A如果它不 阅读全文
posted @ 2013-12-31 01:24 湖心北斗 阅读(817) 评论(0) 推荐(0) 编辑
摘要: c4.5算法是ID3算法的改进,它使用了信息增益率来选择属性,克服使用信息增益来选择属性时偏向选择值多的属性的不足。信息增益率定义为其中Gain(S,A)与ID3算法中的信息增益相同,而分类信息SplitInfo(S,A)代表了按照属性A分裂样本集S的广度和均匀性。其中,Si到Sc是c个属性不同的值的属性A分割S而成的c个样本子集。C4.5既可以处理离散型描述属性,也可以处理连续性描述属性。在选择某个节点上的分支属性时,对于离散描述属性.c4.5的处理方法与ID3相同,按照该属性本身的取值个数进行计算,对于某个连续性描述属性使用从小到大排序各个值得中点作为分割点,然后选出按照该分割点分割前后信 阅读全文
posted @ 2013-12-31 00:06 湖心北斗 阅读(872) 评论(0) 推荐(0) 编辑