【笔记】基尼系数
基尼系数
除了时候信息熵来进行划分,还可以使用另一个指标来进行划分,指标就是基尼系数
基尼系数的式子很简单,取值情况和信息熵一样
假设有两个类别,一个占比x,另一个占比1-x,那么上面的式子就可以变成(抛物线)
可以发现这个是以0.5为对称轴的,即0.5的时候取到了最大值,此时数据的不确定性最大
不难发现基尼系数和信息熵的性质很像
具体实现观察一下基尼系数
(在notebook中)
加载好包,使用鸢尾花数据集,只保留前两个维度的特征
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data[:,2:]
y = iris.target
使用sklearn中的DecisionTreeClassifier,训练一个决策树的分类器,修改criterion为gini
from sklearn.tree import DecisionTreeClassifier
dt_clf = DecisionTreeClassifier(max_depth=2,criterion="gini")
dt_clf.fit(X,y)
绘制函数,绘制图像
from matplotlib.colors import ListedColormap
def plot_decision_boundary(model, axis):
x0,x1 = np.meshgrid(
np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1)
)
X_new = np.c_[x0.ravel(),x1.ravel()]
y_predict = model.predict(X_new)
zz = y_predict.reshape(x0.shape)
custom_cmap = ListedColormap(['#EF9A9A', '#FFF59D', '#90CAF9'])
plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)
plot_decision_boundary(dt_clf,axis=[0.5,7.5,0,3])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1])
图像如下(和使用信息熵的结果相同)
然后就开始模拟使用基尼系数的划分操作,和信息熵的操作区别不大(信息熵的操作),将基尼系数的公式修改进去,区别为使用基尼系数的时候res初始值为1.0,然后计算式为减去p的平方,对于try_split这个函数,区别不大,修改了变量名,其他的思想相同
from collections import Counter
from math import log
def split(X,y,d,value):
index_a = (X[:,d] <= value)
index_b = (X[:,d] > value)
return X[index_a],X[index_b],y[index_a],y[index_b]
def gini(y):
counter = Counter(y)
res = 1.0
for num in counter.values():
p = num/len(y)
res -= p ** 2
return res
def try_split(X,y):
best_g = 1e9
best_d,best_v = -1,-1
for d in range(X.shape[1]):
sorted_index = np.argsort(X[:,d])
for i in range(1,len(X)):
if X[sorted_index[i-1],d] != X[sorted_index[i],d]:
v = (X[sorted_index[i-1],d] + X[sorted_index[i],d]) / 2
X_l,X_r,y_l,y_r = split(X,y,d,v)
g = gini(y_l) + gini(y_r)
if g < best_g:
best_g,best_d,best_v = g,d,v
return best_g,best_d,best_v
使用这个函数,将结果打印出来
best_g,best_d,best_v = try_split(X,y)
print("best_g = ",best_g)
print("best_d = ",best_d)
print("best_v = ",best_v)
结果如下(与图像符合)
存储划分结果以后输出观察一下y1_l和y1_r的情况
X1_l,X1_r,y1_l,y1_r = split(X,y,best_d,best_v)
gini(y1_l)
gini(y1_r)
结果如下
然后再次进行划分,得到结果打印输出出来
best_g2,best_d2,best_v2 = try_split(X1_r,y1_r)
print("best_g = ",best_g2)
print("best_d = ",best_d2)
print("best_v = ",best_v2)
结果如下
将再次打印的结果存储以后,输出观察一下y2_l和y2_r的情况
X2_l,X2_r,y2_l,y2_r = split(X1_r,y1_r,best_d2,best_v2)
gini(y2_l)
gini(y2_r)
结果如下
以上就是模拟使用基尼系数进行划分的操作
关于信息熵和基尼系数的对比
通过算式可以发现,信息熵的计算比基尼系数要慢一些,更复杂,整体而言,两种方式的效果区别不大,没有特别的优劣之分
您能读到这儿,我呢是发自真心的感谢您,若要转载,还望请您带上链接