Gini 不纯度

一概念：

Gini 不纯度研究"随机取数出错概率问题"。

  假定，一件事正确概率为 0.5 ， 出错概率为 1 - 0.5 = 0.5 。

  【分类方式2】 没有 【分类方式1】 好, 但怎样用数据的方式表示该问题 ？ 

   人们引入了“基尼不纯度”这个概念，英文名称是Gini Impurity ， 用数学的方式描述该问题。

计算我们选取的数据点分错类的概率（这个概率就是基尼不纯度Gini Impurity）：

     **直觉告诉我们这个分错类的概率是0.5，因此使用随机分类的基尼不纯度就是0.5**

这是一个最简单的情况，如果我们的数据集中有C个分类，一个数据点正好是第i个分类的概率是p(i)，那么计算基尼不纯度的公式就是

这样做的结果是左边是4个蓝点，右边是5个绿点和1个蓝点。很显然，这种划分没有上面的好，可是我们如何定量地比较划分结果的好坏呢？

posted @ 2021-01-24 17:52 量化散仙阅读(455) 评论(0) 编辑收藏举报

刷新页面返回顶部