B-经济学-基尼指数

人工智能从入门到放弃完整教程目录:https://www.cnblogs.com/nickchen121/p/11686958.html

基尼指数

一、基尼指数简介

基尼指数(gini coefficient)代表了模型的不纯度,基尼指数越小,则不纯度越低;基尼指数越大,则不纯度越高,这和信息增益比是相反的。

假设一个训练集有\(K\)个类别,样本属于第\(k\)个类别的概率为\(p_k\),则它的基尼指数为

\[G(p) = \sum_{k=1}^K p_k (1-p_k) = 1 - \sum_{k=1}^K p_k^2 \]

如果是二分类问题,其中一个分类的概率为\(p\),则它的基尼指数为

\[G(p) = 2 p(1-p) \]

对于某一个训练集\(D\),假设训练集有\(K\)个类别,并且第\(k\)个类别有\(C_k\)个样本,则\(D\)的基尼指数为

\[G(D) = 1 - \sum_{k=1}^K ({\frac {|C_k|} {|D|}})^2 \]

对于某一训练集\(D\),如果根据特征\(T\)的某个特征值是否等于\(t\)\(D\)分成两个子集\(D_1\)\(D_2\)

\[D_1 = \{(x,y)\in{D}|A(x)=t\},\quad D_2 = D-D_1 \]

\(D\)的基尼指数为

\[G(D,A) = ({\frac {|D_1|} {|D|}})G(D_1) + ({\frac {|D_2|} {|D|}})G(D_2) \]

基尼指数\(G(D)\)表示\(D\)的不确定性,基尼指数\(G(D,A)\)表示经过\(T=t\)分割后\(D\)的不确定性。基尼指数越大,样本集合的不确定性也就越大,不纯度越高。

posted @ 2019-10-16 17:06  B站-水论文的程序猿  阅读(2878)  评论(0编辑  收藏  举报