AutoEval
目前文章的共性
-
通过探究 其他方法(多任务学习器)得到的分类器与带原始标签的合成数据集分类器 的相关关系。得出一个可以应用在无标签且含有分布偏移的真实世界数据上,分类效果较好的分类器。【Frechet distance(Auto-eval),Rotation Prediction(Weijian Deng, Stephen Gould, and Liang Zheng. “What Does Rotation Prediction Tell Us About Classifier Accuracy Under Varying Testing Environments?” In International Conference on Machine Learning (ICML), pp. 2579-2589. PMLR, 2021.)Deng】,【对比学习(CAME),与字节合作发表的能量分数建立元数据分布(MDE)模型以简化信息量加速训练 浙大彭儒】AutoEval目前仅有此四篇相关论文,都是在多任务学习器上换一个效果较好的方法进行的改进
-
《Energy-based Automated Model Evaluation》作者总结:在这项工作中,我们引入了一种新颖的措施,即 Meta-distribution Energy (MDE),以提高 AutoEval 框架的效率和有效性。我们的 MDE通过建立单个样本能量的元分布统计来解决过度自信、高存储要求和计算成本的挑战,并得到了理论分析的支持。通过跨模态、数据集和网络骨干的广泛实验,我们通过微观结果、超参数敏感性、压力测试和深入的可视化分析展示了 MDE 的卓越性能和多功能性。
-
但是目前MDE(ICLR2024)已经基本达到了最好的效果
如下问题:
-
随机种子的选取对性能影响不大(可能无法在此方法上对随机种子进行改进)
-
最不常见类别/最常见类别的样本量,严重的类别不平衡(<=0.2)时,该方法也会受到标签移位的严重影响
可以尝试使用对抗训练(W-GAN,CGAN)生成不常见样本数据(能否解决标签偏移?)
-
现象:偏移强度越大,两种方法预测准确性就越困难。重新转换的测试集(- A/- B)中的准确率预测结果比未转换的状态更差。此外,与其他数据集相比,具有较大偏移的CINIC-10 和 STL-10 的性能下降幅度更大。
-
目前不论minist,cifar还是其他数据集基本上都是图形进行变换,该文章加入了一个大语言推理模型:在GLUE任务上选择MNLI作为训练集,其他12个文本数据集像SNLI等,然后发现效果会较之图像有明显下滑,MDE和模型精度的相关性只有65~70多左右。精度不太高,在众多方法中依然效果明显,达到了MAE分数5.X的水平(其他都是10+)。纯文本数据上的泛化性能有待优化,但目前没有想法。
-
本文作者:群青Bleu
本文链接:https://www.cnblogs.com/bleu/p/18734706
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)