[论文速览] Small-scale proxies for large-scale Transformer training instabilities

Pre

title: Small-scale proxies for large-scale Transformer training instabilities
source: ICLR 2024
paper: https://arxiv.org/abs/2309.14322
code:
ref: 小尺度Transformer如何Scale

Idea

这篇文章想通过小模型来研究大模型(Transformer)训练不稳定的原因

Method(Model)

图1 橙色的是不使用Qk-layernorm,蓝色则是启用,N是参数量,LR sensitivity是作者提出用于衡量学习率变化时与最优值的预期偏差,越小越好,qk-layernorm可以减低但无法阻止该值随着参数量增加而上涨。

注:qk-layernorm就是在qk相乘之前对二者分别做一次layernorm

图2 研究不同参数量和学习率设置下 attention logit 增长的不稳定性,这里的attention logits 就是z,是qk相乘后还没过softmax的结果。

图3 输出logit发散不稳定的例子,实线使用了z-loss,效果明显比weight decay(权重衰减来得好)

输出logit一般先过softmax得到类别概率,而作者说不稳定性是由于logit发散且变成比较小的负数,通过将softmax的分母记为Z,z-loss就是 log Z的平方。

Critique

qk-layernorm, z-loss 有用
论文挺长,后面还有Warm-up什么的,有机会再看

本文作者:心有所向,日复一日,必有精进

本文链接:https://www.cnblogs.com/Stareven233/p/18254535

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   NoNoe  阅读(86)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起
  1. 1 Relaxロウきゅーぶ 渡辺剛
  2. 2 カントリーマーチ 栗コーダーカルテット
  3. 3 BGM-M7 かみむら周平
  4. 4 八百万の風が吹く Foxtail-Grass Studio
  5. 5 雲流れ Foxtail-Grass Studio
  6. 6 Melody 梶浦由記
  7. 7 ロック风アレンジ Angel Beats
  8. 8 ヨスガノソラ メインテーマ -遠い空へ- Bruno Wen-li
  9. 9 Servante du feu Matthieu Ladouce
  10. 10 Lost my pieces (Piano Ver.) 橋本由香利
  11. 11 潮鳴り 折戸伸治
  12. 12 雪風 Foxtail-Grass Studio
  13. 13 Bloom of Youth 清水淳一
  14. 14 落月随山隐 饭碗的彼岸,夜莺与玫瑰
  15. 15 Autumn Journey Eric Chiryoku
  16. 16 Alpha C418
  17. 17 Money之歌 神楽Mea
カントリーマーチ - 栗コーダーカルテット
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.

暂无歌词