样本不平衡问题

参考资料

总结一下

从数据角度：

获取更多的少量样本数据
欠采样，从多数类别中删除样本
过采样，为少数类别生成新样本
欠采样和过采用相结合

从评价指标的角度：

选择AUC作为评价指标时，采用PR曲线，而不是ROC曲线。因为在样本不均衡的时候，PR曲线更能准确反映模型的性能。(具体解释可参考这里）

从算法的角度：

集成学习（Ensemble集成算法）。首先从多数类中独立随机抽取出若干子集，将每个子集与少数类数据联合起来训练生成多个基分类器，再加权组成新的分类器，如加法模型、Adaboost、随机森林等。
将任务转换成异常检测问题。把只有极少数样本点一些类别作为异常值进行检测。

从训练的角度：

在损失函数上，对于不同样本数量的类别分别赋予不同的惩罚权重。对小样本量的类别惩罚权重高，大样本量的类别惩罚权重低。

下面的截图来自上文的第一个链接。

posted @ 2022-09-20 17:45 Picassooo 阅读(197) 评论(0) 收藏举报

刷新页面返回顶部