基于sklearn的分类器实战

已迁移到我新博客，阅读体验更佳基于sklearn的分类器实战
完整代码实现见github：click me

一、实验说明

1.1 任务描述

1.2 数据说明

一共有十个数据集，数据集中的数据属性有全部是离散型的，有全部是连续型的，也有离散与连续混合型的。通过对各个数据集的浏览，总结出各个数据集的一些基本信息如下：

连续型数据集: 
1. diabets(4:8d-2c)
2. mozilla4(6:5d-2c)
3. pc1(7:21d-2c)
4. pc5(8:38d-2c)
5. waveform-5000(9:40d-3c)
离散型数据集:
1. breast-w(0:9d-2c-?)
离散-连续混合型数据集:
1. colic(1:22d-2c-?)
2. credit-a(2:15d-2c-?)
3. credit-g(3:20d-2c)
4. hepatitis(少量离散属性)(5:19d-2c-?)

举一个例子说明，colic(1:22d-2c-?)对应colic这个数据集，冒号前面的1表示人工标注的数据集序号(在代码实现时我是用序号来映射数据集的)，22d表示数据集中包含22个属性，2c表示数据集共有3种类别，'?'表示该数据集中含有缺失值，在对数据处理前需要注意。

二、数据预处理

由于提供的数据集文件格式是weka的.arff文件，可以直接导入到weka中选择各类算法模型进行分析，非常简便。但是我没有借助weka而是使用sklearn来对数据集进行分析的，这样灵活性更大一点。所以首先需要了解.arff的数据组织形式与结构，然后使用numpy读取到二维数组中。

具体做法是过滤掉.arff中'%'开头的注释，对于'@'开头的标签，只关心'@attribute'后面跟着的属性名与属性类型，如果属性类型是以'{}'围起来的离散型属性，就将这些离散型属性映射到0，1，2......，后面读取到这一列属性的数据时直接用建好的映射将字符串映射到数字。除此之外就是数据内容了,读完一个数据集的内容之后还需要检测该数据集中是否包含缺失值，这个使用numpy的布尔型索引很容易做到。如果包含缺失值，则统计缺失值这一行所属类别中所有非缺失数据在缺失属性上各个值的频次，然后用出现频次最高的值来替换缺失值，这就完成对缺失值的填补。具体实现可以参见preprocess.py模块中fill_miss函数。

三、代码设计与实现

实验环境:

python 3.6.7

configparser 3.7.4

scikit-learn 0.20.2

numpy 1.15.4

matplotlib 3.0.3

各个分类器都要用到的几个模块在这里做一个简要说明。

交叉验证: 使用sklearn.model_selection.StratifiedKFold对数据作分层的交叉切分，分类器在多组切分的数据上进行训练和预测
AUC性能指标: 使用sklearn.metrics.roc_auc_score计算AUC值，AUC计算对多类(二类以上)数据属性还需提前转换成one hot编码，使用了sklearn,preprocessing.label_binarize来实现，对于多分类问题选择micro-average
数据标准化: 使用sklearn.preprocessing.StandardScaler来对数据进行归一标准化，实际上就是z分数