TinyBERT简单note
TinyBERT:
提出了一种基于Transformer架构的蒸馏方法(Transformer distillation)
两阶段的框架,
a.预训练阶段 ( generaldistillation)
b.fine-tuning阶段 (task-specific distillation)
对Embedding,Attention,Prediction都做了知识蒸馏,主要对KQV的矩阵进行降维
知识蒸馏(KD)
目标是设计behavior函数f和loss函数L,从而让student网络尽可能好的能够学习到teacher网络的知识
Transformer distillation:
从图中我们可以看到M<N,所以我们希望student的层能够对应上teacher的抹一层,即找一个映射n=g(m). TinyBERT中同时考虑了Embedding和prediction这两层的压缩,即0 = g(0), N+1 = g(M+1). 形式上,我们需要最小化下面的目标函数
Attention loss
Hidden state loss
Embedding loss
Prediction loss
综上,我们可以得到以下loss
最后作者打榜的结果
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 对象命名为何需要避免'-er'和'-or'后缀
· SQL Server如何跟踪自动统计信息更新?
· AI与.NET技术实操系列:使用Catalyst进行自然语言处理
· 分享一个我遇到过的“量子力学”级别的BUG。
· Linux系列:如何调试 malloc 的底层源码
· 对象命名为何需要避免'-er'和'-or'后缀
· JDK 24 发布,新特性解读!
· C# 中比较实用的关键字,基础高频面试题!
· .NET 10 Preview 2 增强了 Blazor 和.NET MAUI
· SQL Server如何跟踪自动统计信息更新?
2017-05-19 神经风格转换Neural Style Transfer a review
2017-05-19 神经风格转换 (Neural-Style-Transfer-Papers)
2017-05-19 自然语言处理资源NLP
2017-05-19 生成对抗网络资源 Adversarial Nets Papers