《比 Bert 体积更小速度更快的 TinyBERT》腾讯技术工程

文章地址:https://zhuanlan.zhihu.com/p/94359189

笔记:

模型size=1/7;
推理耗时=1/9;
性能会轻微损失;GLUE下降3个点(BERT-PKD,DistilBERT下降7/8个点);
三个loss:embedding loss(输入,mes),transformer loss(每隔几个,attention和hidden states,两部分mse),prediction loss(根据任务定制,通常是softmax交叉熵)
也可以二阶段:General/Domain-specific Learning,Task-specific Learning

论文地址: https://arxiv.org/abs/1909.10351

代码地址:https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERT

一些讨论:https://github.com/huawei-noah/Pretrained-Language-Model/issues

posted @   ZH奶酪  阅读(265)  评论(0编辑  收藏  举报
编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 字符编码:从基础到乱码解决
历史上的今天:
2016-03-03 【组合数学+动态规划】在如下8*6的矩阵中,请计算从A移动到B一共有____种走法。要求每次只能向上或向右移动一格,并且不能经过P。
点击右上角即可分享
微信分享提示