AutoEval

目前文章的共性

通过探究其他方法（多任务学习器）得到的分类器与带原始标签的合成数据集分类器的相关关系。得出一个可以应用在无标签且含有分布偏移的真实世界数据上，分类效果较好的分类器。【Frechet distance（Auto-eval），Rotation Prediction（Weijian Deng, Stephen Gould, and Liang Zheng. “What Does Rotation Prediction Tell Us About Classifier Accuracy Under Varying Testing Environments?” In International Conference on Machine Learning (ICML), pp. 2579-2589. PMLR, 2021.）Deng】，【对比学习（CAME），与字节合作发表的能量分数建立元数据分布（MDE）模型以简化信息量加速训练浙大彭儒】AutoEval目前仅有此四篇相关论文，都是在多任务学习器上换一个效果较好的方法进行的改进
《Energy-based Automated Model Evaluation》作者总结：在这项工作中，我们引入了一种新颖的措施，即 Meta-distribution Energy (MDE)，以提高 AutoEval 框架的效率和有效性。我们的 MDE通过建立单个样本能量的元分布统计来解决过度自信、高存储要求和计算成本的挑战，并得到了理论分析的支持。通过跨模态、数据集和网络骨干的广泛实验，我们通过微观结果、超参数敏感性、压力测试和深入的可视化分析展示了 MDE 的卓越性能和多功能性。
但是目前MDE（ICLR2024）已经基本达到了最好的效果

如下问题：
1. 随机种子的选取对性能影响不大（可能无法在此方法上对随机种子进行改进）
2. 最不常见类别/最常见类别的样本量,严重的类别不平衡（<=0.2）时，该方法也会受到标签移位的严重影响
  
  可以尝试使用对抗训练（W-GAN,CGAN)生成不常见样本数据（能否解决标签偏移？)
3. 现象：偏移强度越大，两种方法预测准确性就越困难。重新转换的测试集（- A/- B)中的准确率预测结果比未转换的状态更差。此外，与其他数据集相比，具有较大偏移的CINIC-10 和 STL-10 的性能下降幅度更大。
4. 目前不论minist，cifar还是其他数据集基本上都是图形进行变换，该文章加入了一个大语言推理模型：在GLUE任务上选择MNLI作为训练集，其他12个文本数据集像SNLI等，然后发现效果会较之图像有明显下滑，MDE和模型精度的相关性只有65~70多左右。精度不太高，在众多方法中依然效果明显，达到了MAE分数5.X的水平（其他都是10+）。纯文本数据上的泛化性能有待优化，但目前没有想法。

posted @ 2025-02-24 19:33 群青Bleu 阅读(76) 评论(0) 收藏举报

刷新页面返回顶部

群青Bleu

AutoEval

目前文章的共性

公告