《比 Bert 体积更小速度更快的 TinyBERT》腾讯技术工程

文章地址：https://zhuanlan.zhihu.com/p/94359189

笔记：

模型size=1/7；
推理耗时=1/9；
性能会轻微损失；GLUE下降3个点（BERT-PKD，DistilBERT下降7/8个点）；
三个loss：embedding loss（输入，mes），transformer loss（每隔几个，attention和hidden states，两部分mse），prediction loss（根据任务定制，通常是softmax交叉熵）
也可以二阶段：General/Domain-specific Learning，Task-specific Learning

论文地址： https://arxiv.org/abs/1909.10351

代码地址：https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERT

一些讨论：https://github.com/huawei-noah/Pretrained-Language-Model/issues

posted @ 2021-03-03 10:33 ZH奶酪阅读(269) 评论(0) 收藏举报

刷新页面返回顶部

ZH奶酪(张贺)

人生犹如“迷宫”，每个人都在其中寻找各自的“奶酪”——稳定的工作、身心的健康、和谐的人际关系、甜蜜美满的爱情，或是令人充满想象的财富……

《比 Bert 体积更小速度更快的 TinyBERT》腾讯技术工程