深度学习中的一些有趣的现象及其解释
这是网上听了一个 talk,感觉比较有意思,就总结一下。
深度学习的理论工作,有些是“先做实验,发现有的事情(通常反直觉),然后尝试建立一种理论来解释它”,当然这种理论的评估,也是和实验进行比较。
- benign overfitting & harmful overfitting
网络参数很大,统计学角度认为是过拟合!
有些时候 train_acc 达到了 100 % ,我们继续增加网络参数数量,test error 仍然可以继续下降。test acc 最大网络,通常都满足 train acc接近100%。
Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks
benign overfitting in linear regression
Benign Overfitting in Two-layer Convolutional Neural Networks
这篇文章制作了一张 sum of train data & signal-to-noise ratio 为图表两轴 的 test loss 的 heatmap。发现能定量分析。
他们在 mnist 图像上添加噪声,然后发现即使是将噪声加到图片边缘(这些噪声不影响人类对图片的识别),也会影响机器的识别效果 (这不是在推理过程中往噪声上分配计算资源了吗?这有啥难解释的)
结论似乎是 和 都可以把 train lost 训练到近乎 0。但是前者的 test loss 也近乎 而后者近乎 是常量不是小量。据称这样的结论暗示这两者之间有一个 sharp turn。但是我火线跑路了,因为没听懂。
- impact of training algorithms in generalization performance
the marginal value of adaptive gradient methods in machine learning
大概是说 adam 收敛快,但是 test acc 可能不如 sgd。引发人们对不同训练方法对 test acc 的影响。
understanding the generalization of adam in learning neural networks with proper regularization
大概是 adam 进行矩估计的时候因为引入了一些参数,所以增强了模型对噪声的学习能力。不能细说因为又没听懂。
- implicit bias
这个我也想过,大概是“在训练数据量远远小于参数数量的时候,容易发现想让 train acc 达到 100% 的模型有 个,每个 train algorithm 只会收敛到其中一个。”
The implicit bias of gradient descent on separable data
该文证明,使用 gradient descent 训练 linear logistic regression,那么 max margin classifer 和使用 SVM 得到的最大边界分类器一样,甚至能给出收敛速率。
The implicit bias of batch normalization in linear models and two-layer linear convolutional neural networks.
在简单的 linear model 上考虑所有 data point ,经过训练,加上 batch Noralization 之后所有的 会收敛到同一个值,但是不加 batch normalization 就不会。考虑一个比较大的网络,加 bn 之后 varience 会更小。
train data
给定能学习的参数
denote
结论是如果我们训练手法足够好,比如总能找到多元函数的谷,那么 这个方程组有解则 traning loss 就会收敛到 0。且不同的 data point 之间的 margin 的差也会收敛到 0。同时“每对样本的 margin 的差 的平方 的平均值” (类似方差)满足很奇怪的变体。我又看不懂了,所以跳了。结论就是 batch norm 非常非常牛。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律