数据不平衡问题的解决方案研究

目标检测目前最困难的事情：

漏检：无法把前景检测出来，个人认为，最简单的加数据解决
误检：把背景检测为前景，也叫开放域识别问题。非常困难的事情。有人基于度量学习解决。主要的问题是：收集的数据在一个封闭域，但是模型的部署需要到开放世界，就容易出现该问题。有人说，深度学习是学习的纹理，经过测试对于差不多颜色和形状的物体，容易误检。所以可能深度学习只有部署在一个给定场景下才可以获得好的效果。也就是模型训练的数据集和实际运行环境的数据要相似。
误分：目标确实是一个前景，但是误分类到别的类别。可能这个问题是由于训练集的类别不平衡问题导致的。也可能这些误分类别本来就难以分开，不同类别本就是耦合在一起的，只靠图像特征无法达到好的效果。也可能是检测定位和分类 head 的耦合导致分类器性能有限，或许可以另加分类器解决。
定位不准确：这个在实际训练中可能不是一个大的问题，只要标注给的准确，一般还是能定位准确的。

搜集的一些资料，有空详细读读

长尾分布问题即类别不平衡问题。

从类别不平衡数据中学习无偏模型的问题通常被称为不平衡学习，在多类别场景下也被称为长尾学习。

包括：

正负样本不平衡
类别不平衡
...

参考资料：
https://www.zhihu.com/question/373862904
https://github.com/ZhiningLiu1998/awesome-imbalanced-learning/blob/master/README_CN.md
https://www.cvmart.net/community/detail/2122
https://blog.csdn.net/kuweicai/article/details/122256667
https://www.cnblogs.com/inchbyinch/p/12642760.html
https://zhuanlan.zhihu.com/p/60698060
https://zhuanlan.zhihu.com/p/60612064
https://blog.csdn.net/justsolow/article/details/105302606
https://zhuanlan.zhihu.com/p/422558527

解决图像分类中的类别不均衡问题可以采取以下几种方法：

重采样（Resampling）：对于少数类别的样本进行过采样或欠采样，使得各个类别的样本数量相对平衡。过采样方法包括复制样本、生成合成样本等；欠采样方法包括随机删除样本、聚类删除样本等。然而，过采样可能导致过拟合，欠采样可能导致信息丢失，因此需要谨慎选择合适的采样方法。

类别权重（Class Weighting）：通过给予少数类别更高的权重，使得模型在训练过程中更加关注少数类别。常见的做法是使用损失函数中的类别权重，将少数类别的权重设置为大于1的值，使得模型更加关注这些类别。

数据增强（Data Augmentation）：对于少数类别的样本进行数据增强，生成额外的样本以增加其数量。数据增强方法包括平移、旋转、缩放、翻转等操作，可以通过这些操作生成多样化的样本，增加模型对少数类别的泛化能力。

集成学习（Ensemble Learning）：通过结合多个模型的预测结果，来提高少数类别的分类性能。可以使用不同的模型结构、不同的训练数据集等来构建多个模型，然后对它们的预测结果进行集成，例如投票、平均等方式。

生成对抗网络（Generative Adversarial Networks，GANs）：使用生成对抗网络来生成额外的少数类别样本，以增加其数量。GANs可以通过生成器网络生成合成样本，然后通过判别器网络对真实样本和合成样本进行区分，从而提高生成的样本的质量。

以上方法可以单独使用，也可以结合使用，具体选择哪种方法取决于数据集的特点和任务需求。在实际应用中，需要根据具体情况进行尝试和调整，以获得最佳的效果。

图像分类中的类别不均衡问题解决方法总结：

样本：采样、增强、生成
训练策略：损失函数加权
模型集成

posted @ 2022-11-08 18:14 Zenith_Hugh 阅读(277) 评论(0) 收藏举报

刷新页面返回顶部

Zenith Hugh

We Go To The Moon

数据不平衡问题的解决方案研究

公告