随笔 - 942,  文章 - 0,  评论 - 37,  阅读 - 54万

简介

一种对实例进行分类的树形结构,通过多层判断区分目标所属类别
本质:通过多层判断,从训练数据集中归纳出一组分类规则

优点:
计算量小,运算速度较快
易于理解,可清晰查看各属性的重要性

缺点:

  1. 忽略属性间的相关性
  2. 样本类别分布不均匀时,容易影响模型表现

问题核心:特征选择, 每一个节点,应该选用哪个特征。

三种求解方法
ID3,C4.5,CART

ID3: 利用信息熵原理选择信息增益最大的属性作为分类属性,递归地拓展决策树的分支,完成决策树的构造

Ent(D)=k=1|y|pklog2pk

Ent(D)的值越小,变量的不确定性越小 pk=1时: Ent(D)=0

根据信息熵,可以计算以属性a进行样本划分带来的信息增益:
Gain(D,a)=Ent(D)v=1VDvDEnt(Dv)
V为根据属性a划分出的类别数、D为当前样本总数,Dv为类别V样本数

Ent(D) 划分前的信息熵

v=1VDvDEnt(Dv) 划分后的信息熵

目标: 划分后样本分布不确定性尽可能小,即划分后信息熵小,信息增益大

posted on   HDU李少帅  阅读(93)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 25岁的心里话
历史上的今天:
2021-04-22 jdbc 操作步骤

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示