机器学习中如何处理不平衡数据(imbalanced data)?
推荐一篇英文的博客:
8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset
1.不平衡数据集带来的影响
一个不平衡的两类数据集,使用准确率(accuracy)作为模型评价指标,最后得到的准确率很高,感觉结果很棒大功告成了,但再看看混淆矩阵(confusion matrix)或者少数类(样本数量少的这一类)的召回率(recall),你的心可能就拔凉拔凉的。你可能会发现少数类的样本几乎完全分错,即模型将样本基本预测为了多数类(样本数量多的一类)。
2.不平衡数据集很普遍
有些问题产生的数据生来就是不平衡的,比如癌症检测、金融诈骗。对于一个两类问题,比例为多少时,该数据集就不平衡了?英文博客中认为:如果存在类似4:1的类不平衡,则可能会导致问题。
3.英文博客中介绍的8种处理不平衡数据的策略
1) Collect more data
最简单而实用的方法,当获得少数类样本比较容易时,可以考虑直接获得一个比较平衡的数据集。但如果代价比较大,还是考虑别的方法吧。
2) Try Changing Your Performance Metric 修改模型评价指标
处理不平衡数据集时,accuracy很可能不再适用,尤其当我们更加关注少数类样本。此时,可以使用confusion matrix、precision、recall、F1 score、ROC曲线的AUC值等来评价模型。
3) Try Resampling Your Dataset
过采样(oversampling)和欠采样(undersampling)
在这里,更多的是介绍过采样中的重采样(re-sampling),也就是不生成新的数据。
4) Try Generate Synthetic Samples
SMOTE: Synthetic Minority Over-sampling Technique
对少数类使用SMOTE算法“造”数据,可以想象一下对少数类进行k-means,在每个少数类样本与其k个近邻的连线上随机选择生成新的样本点,这就是SMOTE这一类算法大概的思想。SMOTE算法是过采样的一种方法,其生成了新的数据,而重采样不生成新的数据。
5) Try Different Algorithms
树模型处理不平衡数据集效果可能比较好,比如CART、C4.5、Random Forest。
6) Try Penalized Models
比如penalized-SVM 和penalized-LDA。
7) Try a Different Perspective
尝试使用无监督学习中的异常检测算法。
8) Try Getting Creative
嗯,当时我看到这里也是蒙蔽的,这是啥方法。嗯,自己根据问题创造方法吧,英文博客中也列举了一些Quora上比较好的想法。
4.个人对不平衡数据集处理的总结
对于不平衡数据集,我们一般从数据集和模型两个层面去考虑怎么处理。上面列举的第1、3、4条方法都是在数据集上的操作,第2、5、6、7条方法都是在模型方面做的一些尝试。(第2条方法修改模型评价指标,姑且也认为是在模型方面做的工作好了。)
数据集上的操作,收集更多少数类样本,对少数类过采样、重采样,对多数类欠采样,都是为了平衡样本比例。