2022 年 1月 8 日随笔档案 - Jerry_Jin

2022年1月8日

摘要：前几天在群里大家讨论到了“Transformer如何解决梯度消失”这个问题，答案有提到残差的，也有提到LN（Layer Norm）的。这些是否都是正确答案呢？事实上这是一个非常有趣而综合的问题，它其实关联到挺多模型细节，比如“BERT为什么要warmup？”、“BERT的初始化标准差为什么是0.02 阅读全文

posted @ 2022-01-08 22:08 Jerry_Jin 阅读(1355) 评论(0) 推荐(2) 编辑

Dropout视角下的MLM和MAE

摘要：大家都知道，BERT的MLM（Masked Language Model）任务在预训练和微调时的不一致，也就是预训练出现了[MASK]而下游任务微调时没有[MASK]，是经常被吐槽的问题，很多工作都认为这是影响BERT微调性能的重要原因，并针对性地提出了很多改进，如XL-NET、ELECTRA、Ma 阅读全文

posted @ 2022-01-08 17:11 Jerry_Jin 阅读(661) 评论(0) 推荐(0) 编辑

Jerry_Jin

迎着永恒的东风，把红旗插到九重

公告