决策树学习记录---分裂信息

分裂信息的探索：

分裂信息公式：，下面我对分裂信息进行一个可视化。

首先我假设有100个样本，在不同的特征数目下，计算分裂信息，为了计算方便，在此我定义每个特征值下面的样本个数是相同的

代码：

import math
import matplotlib.pyplot as plt

x = [2, 4, 10, 20, 50, 100]     # 特征值个数初始化
y = []  # 对应不同特征值个数的分裂信息计算初始化

def caculate(total, num):
    '''
    total :样本总数
    num :特征值个数
    '''
    reve = total/num  #每个特征值下面的样本数
    return -(reve/total)*math.log(reve/total)*num

for i in range(len(x)):     # 计算y
    y.append(caculate(100, x[i]))
    
plt.figure()
plt.plot(x, y)
plt.xlabel('特征值个数')
plt.ylabel('分裂信息')
plt.show()

结果：

由以上结果大概可知：一个特征下面的特征值越多，这个特征的分裂信息就越大。

当然还有一个维度我并没有考虑进去，那就是如果一个特征有同样数量的特征值，但是特征值下面的样本数不一样，那么分裂信息的值如何变化？

首先我假设，我有100个样本，某个特征下面有两个特征值，不同特征值对应的样本数从1-50变化，观察分裂信息如何变化。

代码：

import math
import matplotlib.pyplot as plt
import numpy as np

totalNum = 100  # 样本总数初始化为100
midNum = totalNum / 2   # 样本总数中值

x1 = np.arange(midNum+1)     # 特征值个数初始化
x1 = x1[1:]     # [1,2,3,4.....50]
x2 = 100 - x1  # 对应不同特征值个数的分裂信息计算初始化[99,98,97......50]
y = []
def caculate(total, num1, num2):
    '''
    total : 样本总数
    num1 : 特征值1样本个数
    num2 : 特征值2样本个数
    '''
    return -(num1/total)*math.log(num1/total) - (num2/total)*math.log(num2/total)

for i in range(len(x1)):     # 计算y
    y.append(caculate(100, x1[i], x2[i]))
    
plt.figure()
plt.plot(x1, y)
plt.xlabel('特征值样本数相似程度(->大)')
plt.ylabel('分裂信息')
plt.show()

由上图可知，当不同特征值的样本个数越接近，分裂信息就越大。

posted @ 2019-05-10 14:49 twoint 阅读(823) 评论(0) 编辑收藏举报

刷新页面返回顶部

jianchen

决策树学习记录---分裂信息

公告