GIT RE-BASIN: MERGING MODELS MODULO PERMUTATION SYMMETRIES (1)
在深度学习模型的训练过程中,经常会遇到这样的现象:每次训练,虽然初始值、随机种子、训练数据的顺序不一样,但是得到的loss曲线都差不多,在验证集上的结果也差不多.这篇论文从land scape的角度解释了这个问题:神经网络的loss landscape并不是我们想象中的很混乱、毫无规律,而是在permutation symmetry的意义下只有一个basin,这样即使每次训练的初始值、随机种子、训练数据的顺序不一样,最终都是进入到这个basin里面,所以loss曲线和验证集上的结果都差不多.
将神经网络中同一层的神经元顺序交换一下并不会改变这一层的输出,也就是说变换前后的模型在permutation symmetry的意义下是等价的,如下图所示:
ΘA与ΘB在两个不同的basin,但是通过等效变换以后,把ΘB变换到∏(ΘB),它们实际上是在同一个basin里面.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
2016-11-11 No-args constructor for class X does not exist. Register an InstanceCreator with Gson for this type to fix this problem.
2014-11-11 Java递归列出所有文件和文件夹