数据不平衡问题的解决方案研究

目标检测目前最困难的事情:

  1. 漏检:无法把前景检测出来,个人认为,最简单的加数据解决
  2. 误检:把背景检测为前景,也叫 开放域识别问题。非常困难的事情。有人基于度量学习解决。主要的问题是:收集的数据在一个封闭域,但是模型的部署需要到开放世界,就容易出现该问题。有人说,深度学习是学习的纹理,经过测试对于差不多颜色和形状的物体,容易误检。所以可能深度学习只有部署在一个给定场景下才可以获得好的效果。也就是模型训练的数据集和实际运行环境的数据要相似。
  3. 误分:目标确实是一个前景,但是误分类到别的类别。可能这个问题是由于训练集的类别不平衡问题导致的。也可能这些误分类别本来就难以分开,不同类别本就是耦合在一起的,只靠图像特征无法达到好的效果。也可能是检测定位和分类 head 的耦合导致分类器性能有限,或许可以另加分类器解决。
  4. 定位不准确:这个在实际训练中可能不是一个大的问题,只要标注给的准确,一般还是能定位准确的。

搜集的一些资料,有空详细读读

长尾分布问题即 类别不平衡问题

从类别不平衡数据中学习无偏模型的问题通常被称为不平衡学习,在多类别场景下也被称为长尾学习。

包括:

  1. 正负样本不平衡
  2. 类别不平衡
    ...

参考资料:
https://www.zhihu.com/question/373862904
https://github.com/ZhiningLiu1998/awesome-imbalanced-learning/blob/master/README_CN.md
https://www.cvmart.net/community/detail/2122
https://blog.csdn.net/kuweicai/article/details/122256667
https://www.cnblogs.com/inchbyinch/p/12642760.html
https://zhuanlan.zhihu.com/p/60698060
https://zhuanlan.zhihu.com/p/60612064
https://blog.csdn.net/justsolow/article/details/105302606
https://zhuanlan.zhihu.com/p/422558527

解决图像分类中的类别不均衡问题可以采取以下几种方法:

重采样(Resampling):对于少数类别的样本进行过采样或欠采样,使得各个类别的样本数量相对平衡。过采样方法包括复制样本、生成合成样本等欠采样方法包括随机删除样本、聚类删除样本等。然而,过采样可能导致过拟合,欠采样可能导致信息丢失,因此需要谨慎选择合适的采样方法。

类别权重(Class Weighting):通过给予少数类别更高的权重,使得模型在训练过程中更加关注少数类别。常见的做法是使用损失函数中的类别权重,将少数类别的权重设置为大于1的值,使得模型更加关注这些类别

数据增强(Data Augmentation)对于少数类别的样本进行数据增强,生成额外的样本以增加其数量。数据增强方法包括平移、旋转、缩放、翻转等操作,可以通过这些操作生成多样化的样本,增加模型对少数类别的泛化能力

集成学习(Ensemble Learning):通过结合多个模型的预测结果,来提高少数类别的分类性能。可以使用不同的模型结构、不同的训练数据集等来构建多个模型,然后对它们的预测结果进行集成,例如投票、平均等方式

生成对抗网络(Generative Adversarial Networks,GANs):使用生成对抗网络来生成额外的少数类别样本,以增加其数量。GANs可以通过生成器网络生成合成样本,然后通过判别器网络对真实样本和合成样本进行区分,从而提高生成的样本的质量。

以上方法可以单独使用,也可以结合使用,具体选择哪种方法取决于数据集的特点和任务需求。在实际应用中,需要根据具体情况进行尝试和调整,以获得最佳的效果。

图像分类中的类别不均衡问题解决方法总结:

  • 样本:采样、增强、生成
  • 训练策略:损失函数加权
  • 模型集成
posted @ 2022-11-08 18:14  cold_moon  阅读(103)  评论(0编辑  收藏  举报