样本不平衡问题

参考资料

总结一下

从数据角度:

  • 获取更多的少量样本数据
  • 欠采样,从多数类别中删除样本
  • 过采样,为少数类别生成新样本
  • 欠采样和过采用相结合

从评价指标的角度:

  • 选择AUC作为评价指标时,采用PR曲线,而不是ROC曲线。因为在样本不均衡的时候,PR曲线更能准确反映模型的性能。(具体解释可参考这里

从算法的角度:

  • 集成学习(Ensemble集成算法)。首先从多数类中独立随机抽取出若干子集,将每个子集与少数类数据联合起来训练生成多个基分类器,再加权组成新的分类器,如加法模型、Adaboost、随机森林等。
  • 将任务转换成异常检测问题。把只有极少数样本点一些类别作为异常值进行检测。

从训练的角度:

  • 在损失函数上,对于不同样本数量的类别分别赋予不同的惩罚权重。对小样本量的类别惩罚权重高,大样本量的类别惩罚权重低。

 

 下面的截图来自上文的第一个链接。

 

posted @   Picassooo  阅读(142)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示