9.决策树

1.什么是决策树

什么是决策树呢？首先我们生活中有很多决策树的例子，比如相亲T_T,很多妹子都会这样选择。

再比如说，某公司招聘机器学习算法工程师。

每一步都在进行一个决策，最终形成了一个倒立的树状结构，我们把这样一个过程称之为决策树。

我们在数据结构当中，也有树结构。这里的决策树同样具备树结构的属性。比如根节点，叶子节点。以及树的深度，当然这里就是3，因为我们通过简历对所有应聘者进行分析，决定是录用还是考察该应聘者，最终需要通过三次决策。

我们来看看sklearn中是如何使用决策树的，然后进一步认识决策树。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris

# 这里我们依旧是用鸢尾花数据集
iris = load_iris()
# 为了可视化，我们只选取两个特征，这里选择后两个特征
X = iris.data[:, 2:]
y = iris.target

plt.scatter(X[y == 0, 0], X[y == 0, 1])
plt.scatter(X[y == 1, 0], X[y == 1, 1])
plt.scatter(X[y == 2, 0], X[y == 2, 1])

plt.show()

from sklearn.tree import DecisionTreeClassifier

# max_depth:树的深度
# criterion：评判标准，这里我们采用熵，至于什么是熵，后面介绍
dt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy")
dt_clf.fit(X, y)
# 绘制决策边界
def plot_decision_boundary(model, axis):
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1] - axis[0]) * 100)).reshape(1, -1),
        np.linspace(axis[3], axis[2], int((axis[3] - axis[2]) * 100)).reshape(1, -1)
    )

    X_new = np.c_[x0.ravel(), x1.ravel()]
    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(["#EF9A9A", "#FFF59D", "#90CAF9"])

    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)

    
plot_decision_boundary(dt_clf, axis=[0.5, 7.5, 0, 3])
plt.scatter(X[y == 0, 0], X[y == 0, 1])
plt.scatter(X[y == 1, 0], X[y == 1, 1])
plt.scatter(X[y == 2, 0], X[y == 2, 1])

plt.show()

我们来对这个决策树进行分析，看看我们得到的是一个什么样的决策树。

这个数字是大概估算出来的，总之就是一步一步的进行决策。由此我们总结出决策树的一些性质。

决策树是一个非参数学习算法
可以解决分类问题
并且和knn一样，天然解决多分类问题。
和knn一样，也可以解决回归问题，进行分类决策，然后使用平均值。
具有非常好的可解释性，很明显，不管结果如何，根据流程我们总能说出个123来。

当我们明白了什么是决策树，那么问题来了，要怎么构建决策树呢？换句话说，每个节点要在哪一个维度上面进行划分呢？比如相亲：女性可以从是否有车、有房、长得帅来划分；但是每个维度要在哪一个值上做划分呢？有车有房长得帅，但是房、车、要多好呢？人要多帅呢；以及节点的优先级问题，房、车、长得帅，是先以哪一个节点进行划分呢？这些都是问题，不过目前我们可以通过信息熵的方式进行判断。

2.信息熵

什么是熵？熵在信息论中代表随机变量不确定度的度量。听起来挺深奥的，其实我们在中学的物理化学中就接触了，就是物体的混乱程度。就是物质本质都会沿着熵增大的方向前进。

在机器学习领域，我们也能得到如下结论

熵越大，数据的不确定性越高
熵越小，数据的不确定性越低

信息熵的计算公式如图所示，其中的k表示，在这个系统中有k个类别，p代表每一个类别所占的比例。前面为什么要加上负号呢？因为p一定是一个小于1的数，那么log(p)显然也是一个小于0的数，因此结果为负数，再加上前面的负号，负负得正了。

我们举个栗子吧

我们看到右边数据的熵是小于左边的，说明右边的数据更稳定。仔细想一下，也能理解，因为右边有百分之70都是同一类数据，右边的数据是更确定的。

栗子再举的极端一点，如果是{1, 0, 0}，那么此时的信息熵就是0，这也是信息熵的最低值，说明此时的数据只有一类，没有任何的不确定性。

下面我们就以二分类为例，编程绘制一下图像。首先二分类的话，如果其中一类的比例为x，那么剩余一类一定占1-x，那么信息熵就是H = -xlog(x) - (1 - x)log(1 - x)

import numpy as np
import matplotlib.pyplot as plt


def entropy(p):
    return -p * np.log(p) - (1 - p) * np.log(1 - p)


x = np.linspace(0.01, 0.99, 200)
plt.plot(x, entropy(x))
plt.show()

可以看到当二分类的时候，图像整体类似于抛物线的形状，而且当x为0.5的时候，信息熵有最大值，或者此时数据是最不确定的。

那么再回到之前的问题，我们每个节点要在那个维度上进行划分，显然是要沿着信息熵减小的方向上划分。至于在那个值上面做划分，显然是要在熵减小的程度最高的地方划分

3.基尼系数

基尼系数和信息熵本质一样，都是对数据进行划分的一种方式，并且基尼系数还要更简单一些。

基尼系数和信息熵同样满足相同的规律，值越低，越确定。

下面我们同样以二分类为例，编程绘制一下图像。首先二分类的话，如果其中一类的比例为x，那么剩余一类一定占1-x，那么基尼系数就是G = 1 - x ** 2 - (1 - x) ** 2

import numpy as np
import matplotlib.pyplot as plt


def gini(x):
    return 1 - x ** 2 - (1 - x) ** 2

x = np.linspace(0.01, 0.99, 200)
plt.plot(x, gini(x))
plt.show()

二分类的话，基尼系数和信息熵是一样的。

关于二者具体的区别

熵信息的计算比基尼系数稍慢，在sklearn中，默认使用基尼系数
大多数情况下二者没有特别的效果优劣

4.CART与决策树中的超参数

什么是CART，CART(classification and regression tree)，使用信息熵和基尼系数构建出来的都是CART树。根据某一个维度d，和阈值v不断地进行二分。那么最终形成的树必定是一个二叉树，sklearn使用的便是CART树，当然除了CART树，还有ID3，C4.5，C5.0等等。

当决策树训练好了之后，那么在进行预测的时候，只需要O(logm)的复杂度，因为每一次都对半查找，但是也显而易见，在训练的时候，复杂度是O(n·m·logm)，并且决策树还有一个问题就是和knn一样，容易产生过拟合。实际上非参数学习，都容易产生过拟合，因此我们要进行剪枝，来降低复杂度、解决过拟合。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.tree import DecisionTreeClassifier
# 绘制决策边界
def plot_decision_boundary(model, axis):
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1] - axis[0]) * 100)).reshape(1, -1),
        np.linspace(axis[3], axis[2], int((axis[3] - axis[2]) * 100)).reshape(1, -1)
    )

    X_new = np.c_[x0.ravel(), x1.ravel()]
    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(["#EF9A9A", "#FFF59D", "#90CAF9"])

    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)
    
iris = load_iris()
X, y = make_moons(noise=0.25, random_state=666)

# 我们不加任何的参数
dt_clf = DecisionTreeClassifier()
dt_clf.fit(X, y)
plot_decision_boundary(dt_clf, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(X[y == 0, 0], X[y == 0, 1])
plt.scatter(X[y == 1, 0], X[y == 1, 1])
plt.show()

显然当我们不加任何的参数的时候，决策树过拟合了。那么我们就传入一些参数，看看是如何遏制过拟合的。

# 限制深度为2
dt_clf = DecisionTreeClassifier(max_depth=2)
dt_clf.fit(X, y)
plot_decision_boundary(dt_clf, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(X[y == 0, 0], X[y == 0, 1])
plt.scatter(X[y == 1, 0], X[y == 1, 1])
plt.show()

此时就没有过拟合了。我们再来看看其他参数

# 这个参数表示，对于一个节点来说，至少有多少个样本数据，才进行拆分。
dt_clf = DecisionTreeClassifier(min_samples_split=10)
dt_clf.fit(X, y)
plot_decision_boundary(dt_clf, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(X[y == 0, 0], X[y == 0, 1])
plt.scatter(X[y == 1, 0], X[y == 1, 1])
plt.show()

# 这个参数表示，对于一个叶子节点来说，至少要有多少个样本
dt_clf = DecisionTreeClassifier(min_samples_leaf=6)
dt_clf.fit(X, y)
plot_decision_boundary(dt_clf, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(X[y == 0, 0], X[y == 0, 1])
plt.scatter(X[y == 1, 0], X[y == 1, 1])
plt.show()

# 这个参数表示，最多有多少个叶子节点
# 叶子节点越多，决策树就越复杂，就越容易产生过拟合。
dt_clf = DecisionTreeClassifier(max_leaf_nodes=4)
dt_clf.fit(X, y)
plot_decision_boundary(dt_clf, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(X[y == 0, 0], X[y == 0, 1])
plt.scatter(X[y == 1, 0], X[y == 1, 1])
plt.show()

5.决策树解决回归问题

当我们使用决策树解决回归问题时，对于每一个叶子节点都包含了一定的数据。当一个新的数据到来时，走到叶子节点。如果是分类问题，那么就根据当前叶子节点里面的数据进行投票，选择票数多的类别。如果是回归问题，那么就去所有样本数据的平均值。

我们来看看sklearn当中如何解决回归问题。

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor

boston = load_boston()
X = boston.data
y = boston.target

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

dt_reg = DecisionTreeRegressor()
dt_reg.fit(X_train, y_train)

print(dt_reg.score(X_test, y_test))  # 0.6020300890301
# 显然这个结果不尽人意，我们再来看看训练集
print(dt_reg.score(X_train, y_train))  # 1.0

"""
惊奇的是，在训练集上面居然达到了百分之百
毫无疑问，肯定是发生了过拟合。
"""

显然要对决策树进行剪枝，用参数来制约决策树。至于怎么调，可以自己尝试一下。