摘要:
泰坦尼克是一个经典的机器学习数据集,通过决策树对特征进行筛选,获得较大的特征 import pandas as pd pd.set_option('display.max_columns', None) #显示完整的列 # pd.set_option('display.max_rows', None 阅读全文
摘要:
决策树比较常用的算法模型,可以做分类也可以回归 决策树算法重点 对特征的选择,可以使用熵,也可以使用基尼系数,通过信息增益或者信息增益率选择最好的特征 决策树的剪枝,有两种策略,一种是预剪枝,一种是后剪枝,预剪枝可以通过限制树的高度,叶子节点个数,信息增益等进行,使得树边建立边剪枝,后剪枝通过增加损 阅读全文