机器学习--决策树(信息熵,信息增益,信息增益率,基尼值,基尼指数)
决策树是根据条件分支语句if-else产生的,决策树是一种树形结构,每一个内部节点表示是一个属性上的判断,每一个分支表示判断结果的输出,每一个叶子节点表示分类结果,本质上就是多个判断节点的树。
在使用决策树的时候会提到熵的概念
熵:熵表示混乱程度,越混乱熵值越大,越有序熵值越小,在信息论里,有着信息熵的概念。
信息熵:p(x)表示第k类样本的数量除以样本总量
信息增益:信息增益是表示数据集中某个特征X的信息使类Y的信息的不确定性减少的程度(描述不清,上图看更直观)
案例体现:
信息增益率:
基尼值以及基尼指数:
案例体现:
总结:
明天更新一下决策树的剪枝,包括预剪枝,后剪枝以及cart剪枝
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库
· SQL Server 2025 AI相关能力初探
· 为什么 退出登录 或 修改密码 无法使 token 失效