不平衡分类基本策略


类不平衡学习又叫不平衡类、稀有类学习。类不平衡分布特征是一个类的实例数(多数类、负类)明显多于另一类(少数类、正类)。通常,正确分类正类实例比正确分 类 负类实例更有意义。例如,在信用欺诈中监测中,欺诈用户明显少于正常用户,然而,如何正确识别欺诈用户更具实际意义。

 

 传统处理稀有类方法大致:(1)通过抽样的方法的平衡训练数据集;(2)基于算法的方法。对于前者,已经提出了很多行之有效的抽样方法,如随机欠抽样负类实例(under-sample)、随机过抽样正类样本(over-sample)、生成新正类样本的过抽样法等。后者包括两阶段法、代价敏感方法等

posted @ 2014-11-13 00:42  Hua-Ping Guo  阅读(358)  评论(0编辑  收藏  举报