Loading

Gini 不纯度

一 概念:

Gini 不纯度研究"随机取数出错概率问题"

  假定,一件事正确概率为 0.5 , 出错概率为 1 - 0.5 = 0.5 。 

1.1 概念的引入

  • 图1, 数据样本 ( 蓝点、绿点两种)
  • 图2, 分类方式1 ( x=2 , 完美切分蓝点和绿点 )
  • 图3, 分类方式2 ( x=1.5 , 有杂志 )

问题:

  【分类方式2】 没有 【分类方式1】 好, 但怎样用数据的方式表示该问题 ? 

   人们引入了“基尼不纯度”这个概念,英文名称是Gini Impurity , 用数学的方式描述该问题。

1.2 计算和公式

以上面对数据集举例子:

  1. 随机从数据集中选出一个点 ,计算分布概率

  2. 由于数据集中共有5个蓝点和5个绿点,所以随机选取的数据点有
    - 50%的可能性是蓝点
    - 50%的可能性是绿点

  3. 计算我们选取的数据点分错类的概率(这个概率就是基尼不纯度Gini Impurity):

         **直觉告诉我们这个分错类的概率是0.5,因此使用随机分类的基尼不纯度就是0.5**
    

公式

这是一个最简单的情况,如果我们的数据集中有C个分类,一个数据点正好是第i个分类的概率是p(i),那么计算基尼不纯度的公式就是

参考:

这样做的结果是左边是4个蓝点,右边是5个绿点和1个蓝点。很显然,这种划分没有上面的好,可是我们如何定量地比较划分结果的好坏呢?

posted @ 2021-01-24 17:52  量化散仙  阅读(455)  评论(0编辑  收藏  举报