数据不平衡问题的解决方案研究
目标检测目前最困难的事情:
- 漏检:无法把前景检测出来,个人认为,最简单的加数据解决
- 误检:把背景检测为前景,也叫 开放域识别问题。非常困难的事情。有人基于度量学习解决。主要的问题是:收集的数据在一个封闭域,但是模型的部署需要到开放世界,就容易出现该问题。有人说,深度学习是学习的纹理,经过测试对于差不多颜色和形状的物体,容易误检。所以可能深度学习只有部署在一个给定场景下才可以获得好的效果。也就是模型训练的数据集和实际运行环境的数据要相似。
- 误分:目标确实是一个前景,但是误分类到别的类别。可能这个问题是由于训练集的类别不平衡问题导致的。也可能这些误分类别本来就难以分开,不同类别本就是耦合在一起的,只靠图像特征无法达到好的效果。也可能是检测定位和分类 head 的耦合导致分类器性能有限,或许可以另加分类器解决。
- 定位不准确:这个在实际训练中可能不是一个大的问题,只要标注给的准确,一般还是能定位准确的。
搜集的一些资料,有空详细读读
长尾分布问题即 类别不平衡问题。
从类别不平衡数据中学习无偏模型的问题通常被称为不平衡学习,在多类别场景下也被称为长尾学习。
包括:
- 正负样本不平衡
- 类别不平衡
...
参考资料:
https://www.zhihu.com/question/373862904
https://github.com/ZhiningLiu1998/awesome-imbalanced-learning/blob/master/README_CN.md
https://www.cvmart.net/community/detail/2122
https://blog.csdn.net/kuweicai/article/details/122256667
https://www.cnblogs.com/inchbyinch/p/12642760.html
https://zhuanlan.zhihu.com/p/60698060
https://zhuanlan.zhihu.com/p/60612064
https://blog.csdn.net/justsolow/article/details/105302606
https://zhuanlan.zhihu.com/p/422558527
解决图像分类中的类别不均衡问题可以采取以下几种方法:
重采样(Resampling):对于少数类别的样本进行过采样或欠采样,使得各个类别的样本数量相对平衡。过采样方法包括复制样本、生成合成样本等;欠采样方法包括随机删除样本、聚类删除样本等。然而,过采样可能导致过拟合,欠采样可能导致信息丢失,因此需要谨慎选择合适的采样方法。
类别权重(Class Weighting):通过给予少数类别更高的权重,使得模型在训练过程中更加关注少数类别。常见的做法是使用损失函数中的类别权重,将少数类别的权重设置为大于1的值,使得模型更加关注这些类别。
数据增强(Data Augmentation):对于少数类别的样本进行数据增强,生成额外的样本以增加其数量。数据增强方法包括平移、旋转、缩放、翻转等操作,可以通过这些操作生成多样化的样本,增加模型对少数类别的泛化能力。
集成学习(Ensemble Learning):通过结合多个模型的预测结果,来提高少数类别的分类性能。可以使用不同的模型结构、不同的训练数据集等来构建多个模型,然后对它们的预测结果进行集成,例如投票、平均等方式。
生成对抗网络(Generative Adversarial Networks,GANs):使用生成对抗网络来生成额外的少数类别样本,以增加其数量。GANs可以通过生成器网络生成合成样本,然后通过判别器网络对真实样本和合成样本进行区分,从而提高生成的样本的质量。
以上方法可以单独使用,也可以结合使用,具体选择哪种方法取决于数据集的特点和任务需求。在实际应用中,需要根据具体情况进行尝试和调整,以获得最佳的效果。
图像分类中的类别不均衡问题解决方法总结:
- 样本:采样、增强、生成
- 训练策略:损失函数加权
- 模型集成
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!