Fork me on GitHub

不纯度、基尼系数、信息熵等

什么是机器学习?
机器学习:简单来说就是机器通过一系列任务从经验(数据)中学习并且评估效果如何。

机器学习中很多地方都要根据目前的信息做出决策,信息熵主要是反应信息的不确定性,他的一个很重要的作用就是做决策时提供一定的判断依据,比如决策树根据熵来往下设置分支。
信息上实际反应的是一个信息的不确定度。在一个随机事件中,某个事件发生的不确定度越大,熵也越大,那么我们要搞清楚所需要的信息越多。
那么信息熵本质到底是什么呢,我认为本质就是我要获得某些信息的代价,当信息的稀有程度越高,得到这个信息需要付出的代价越大。

信息:用于消除随机不确定性东西

一、不纯度:
(1)基尼不纯度可以作为 衡量系统混乱程度的 标准;

(2)基尼不纯度越小,纯度越高,集合的有序程度越高,分类的效果越好;

(3)基尼不纯度为 0 时,表示集合类别一致;

(4)在决策树中,比较基尼不纯度的大小可以选择更好的决策条件(子节点)。

为了要将表格转化为一棵树,决策树需要找出最佳节点和最佳的分枝方法,而衡量这个“最佳”的指标叫做“不纯度”。通常来说,不纯度越低,决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心大多是围绕在对某个不纯度相关指标的最优化上。
不纯度基于叶子节点来计算的,所以树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的,
也就是说,在同一棵决策树上,叶子节点的不纯度一定是最低的。

二、信息熵
当一件事情有多种可能情况时,这件事情(宏观态)对某人(观察者)而言具体是哪种情况的不确定性叫做熵,而能够消除该不确定性的事物叫做信息。熵和信息数量相等意义相反,获取信息意味着消除不确定性(熵)。

熵值越大代表着随机变量的不确定性越大,熵值越小代表着随机变量的不确定性越小,当所有事件的不确定性相等的时候熵最大。

三、信息增益:
意义: 表示已知特征A的信息而使得类D的不确定性减少的程度

四、基尼指数:(基尼不纯度)
表示样本集合中一个随机选中的样本被分错的概率。基尼指数越小表示集合中被选中的样本被分错的概率越小,也就说集合的纯度越高,反之,集合越不纯。
基尼指数=样本呢被选中的概率*样本被分错的概率。

posted @ 2021-04-17 11:24  sy-  阅读(2740)  评论(0编辑  收藏  举报