基于Breast Cancer dataset的决策树分类及可视化
Task description:
Use the decision tree for classification based on Breast cancer dataset available at https://www.kaggle.com/uciml/breast-cancer-wisconsin-data.
基于Python的可视化参考:DT可视化工具graphviz,python接口工具为pydotplus,需要提前安装graphviz并添加PATH到环境变量中,之后利用pydotplus可视化sklearn中的DT结果。http://sklearn.apachecn.org/cn/0.19.0/modules/tree.html#tree-algorithms
Graphviz 不能通过 pip 直接安装,需要手动在官网下载并安装:https://graphviz.gitlab.io/about/并添加到环境变量。pydotplus可以通过pip安装。
1:首先需要获得Breast Cancer dataset数据集,在kaggle上获取该数据集需要FQ,该数据解压后为csv格式
2:使用pandas.read_csv()来读入数据,并查看数据的前五项条目
3:查看数据的具体信息,一共有32列(其中第二列diagnosis为标签,其他列为特征),569行,发现有一列为空列你并将其删除
4:将数据调整成sklearn能够传入的格式,即将特征值和标签分离,然后将训练和测试数据按照7:3的比例划分
5:sklearn模型运算分为三步:调用模型,训练模型,评价模型
先使用默认参数对模型进行初步的训练,并使用cross_score对模型进行评估
6:使用网格搜索调整参数
7:将训练得到的最佳参数导入模型
8:利用graphviz对决策树进行可视化