摘要:
两篇好文 先存一下 知乎:https://zhuanlan.zhihu.com/p/33173246 博客:https://blog.csdn.net/malefactor/article/details/82154224?spm=1001.2014.3001.5501 ps 这个博主好文成框 阅读全文
摘要:
idea很棒,实验结果也很棒 from: https://zhuanlan.zhihu.com/p/84614490 Transformer中的warm-up与LayerNorm 之前知乎上有一个问题:神经网络中 warmup 策略为什么有效;有什么理论解释么?在这个问题下,由于理论解释的缺乏,通过 阅读全文