2023 年 7月 20 日随笔档案 - Peg_Wu

2023年7月20日

摘要： 1. Training stuck ≠ Small Gradient 如果我们在训练过程中遇到了training stuck，不一定是遇到了critical point，也可能是走到了critical point附近，并在山谷两端左右徘徊！把此时的梯度计算出来，可以发现，梯度并不为0，可以证明此时阅读全文

posted @ 2023-07-20 17:10 Peg_Wu 阅读(36) 评论(0) 推荐(0) 编辑

Lecture 2 -- Batch & Momentum

摘要： 1. Small Batch v.s. Large Batch 2. "Noisy" update is better for training! 如果将所有的数据作为一个Batch丢进网络中，当梯度下降遇到critical point时，由于loss是恒定的，参数就会卡在critical poin 阅读全文

posted @ 2023-07-20 15:23 Peg_Wu 阅读(15) 评论(0) 推荐(0) 编辑

Lecture 2 -- Local Minima & Saddle Point

摘要： 1. Optimization Fails because ... local minima(局部最小值)和saddle point(鞍点)都会造成梯度为0，导致参数无法继续更新下去，损失趋于平缓 local minima和saddle point统称为critical point(驻点) 2. 如阅读全文

posted @ 2023-07-20 01:09 Peg_Wu 阅读(46) 评论(0) 推荐(0) 编辑

peg-wu

公告