B-经济学-基尼指数
更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:https://www.cnblogs.com/nickchen121/p/11686958.html
基尼指数
一、基尼指数简介
基尼指数(gini coefficient)代表了模型的不纯度,基尼指数越小,则不纯度越低;基尼指数越大,则不纯度越高,这和信息增益比是相反的。
假设一个训练集有个类别,样本属于第个类别的概率为,则它的基尼指数为
如果是二分类问题,其中一个分类的概率为,则它的基尼指数为
对于某一个训练集,假设训练集有个类别,并且第个类别有个样本,则的基尼指数为
对于某一训练集,如果根据特征的某个特征值是否等于把分成两个子集和
则的基尼指数为
基尼指数表示的不确定性,基尼指数表示经过分割后的不确定性。基尼指数越大,样本集合的不确定性也就越大,不纯度越高。