摘要: 随机森林实际上是一种特殊的bagging方法,它将决策树用作bagging中的模型。首先,用bootstrap方法生成m个训练集,然后,对于每个训练集,构造一颗决策树,在节点找特征进行分裂的时候,并不是对所有特征找到能使得指标(如信息增益)最大的,而是在特征中随机抽取一部分特征,在抽到的特征中间找到 阅读全文
posted @ 2019-06-18 11:04 xd_xumaomao 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 决策树与条件概率分布 决策树在概率论的角度解释就是每次选择一个特征,然后根据该特征的不同取值对特征空间进行划分,如此递归下去把特征空间划分为一个个子区域,对于落在这个子区域上的样本,我们可以用条件概率分布P(Y|X)来表示这些样本的概率分布,最终把条件概率最大的类别作为该子区域中的样本的类别。 ID 阅读全文
posted @ 2019-06-18 10:41 xd_xumaomao 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 自信息(可以理解为该事件发生后所带来的信息量):\[I\left( x \right) = - \log P\left( x \right)\],(注意:这里为什么要用log呢,假设x,y独立同分步,则应该满足I(x,y)=I(x)+I(y)。而I(x,y)=-logP(x,y)=-log(P(x) 阅读全文
posted @ 2019-06-18 10:18 xd_xumaomao 阅读(176) 评论(0) 推荐(0) 编辑