机器学习：决策树（决策树解决回归问题、决策树算法的局限性）

一、解决回归问题的思路

　1）思路对比

解决分类问题：根据模型参数训练结束后，对每个“叶子”节点的样本数据进行投票，规定数量最多的样本的类型为该“叶子”的预测类型；

解决回归问题：根据模型参数划分结束后，对每个“叶子”节点处的相应的数据输出值的平均值，作为该“叶子”的预测值；（也就是训练结束后，每个“叶子”处可能有多个数值，取多个数值的平均值作为该“叶子”的预测值，根据特征值预测未知的样本数据时，如果最终计算结果在该“叶子”上，认为该“叶子”的预测值为该特征值对应的样本的数据；）

　2）scikit-learn 的决策树算法

两个算法的参数相同，参数的功能相同；

DecisionTreeClassifier()：解决分类问题；
DecisionTreeRegressor()：解决回归问题；

　3）判断模型过拟合 / 欠拟合

　4）代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

boston = datasets.load_boston()
X = boston.data
y = boston.target

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

from sklearn.tree import DecisionTreeRegressor
dt_reg = DecisionTreeRegressor()
dt_reg.fit(X_train, y_train)

dt_reg.score(X_test, y_test)
# 模型对测试数据集上的准确率：0.6946080795352323

dt_reg.score(X_train, y_train)
# 模型在训练数据集上的准确率：1.0