transformer 为什么使用 layer normalization,而不是其他的归一化方法?

原文链接

感觉写的深得我心,点赞之余把链接放到blog上,方便日后查看,欢迎大家前去点赞打卡收藏。

posted @ 2024-09-26 17:53  sq-Feng  阅读(3)  评论(0编辑  收藏  举报