分类中数据不平衡问题的解决经验(转)
笔试时遇到这个问题,这篇博文写的蛮好:https://www.52ml.net/16294.html
总结起来四种方法:
(1)过采样:过抽样方法通过增加少数类样本来提高少数类的分类性能 ,
最简单的办法是简单复制少数类样本,缺点是可能导致过拟合,没有给少数类增加任何新的信息。
改进的过抽样方法通过在少数类中加入随机高斯噪声或产生新的合成样本等方法。
(2)欠采样:欠抽样方法通过减少多数类样本来提高少数类的分类性能,最简单的方法是
通过随机地去掉一些多数类样本来减小多数类的规模,缺点是会丢失多数类的一些重要信息,
不能够充分利用已有的信息。
(3)算法层面,采用代价敏感方法:本质上就是给不同类样本不同的权重,包括重构训练集的方法、
引入代价敏感因子,大样本赋予较小的代价。
(4)特征选择:根据不平衡分类问题的特点,选取最具有区分能力的特征,有利于提高稀有类的识别率 。
本质上就三种方式,过采样、欠采样、设权重。