摘要: 两篇好文 先存一下 知乎:https://zhuanlan.zhihu.com/p/33173246 博客:https://blog.csdn.net/malefactor/article/details/82154224?spm=1001.2014.3001.5501 ps 这个博主好文成框 阅读全文
posted @ 2021-06-20 16:02 凌波微步_Arborday 阅读(155) 评论(0) 推荐(0) 编辑
摘要: idea很棒,实验结果也很棒 from: https://zhuanlan.zhihu.com/p/84614490 Transformer中的warm-up与LayerNorm 之前知乎上有一个问题:神经网络中 warmup 策略为什么有效;有什么理论解释么?在这个问题下,由于理论解释的缺乏,通过 阅读全文
posted @ 2021-06-20 11:18 凌波微步_Arborday 阅读(853) 评论(0) 推荐(0) 编辑