2020 年 5月 19 日随笔档案 - 朱群喜_QQ囍_海疯习习

2020年5月19日

摘要： TinyBERT：提出了一种基于Transformer架构的蒸馏方法（Transformer distillation）两阶段的框架， a.预训练阶段（ generaldistillation） b.fine-tuning阶段（task-specific distillation）对Emb 阅读全文

posted @ 2020-05-19 23:21 朱群喜_QQ囍_海疯习习阅读(205) 评论(0) 推荐(0) 编辑

ALBERT简单note

摘要：首先看下BERT和ALBERT模型的一些版本配置 1. Layer个数和performance的关系：24层是个临界点，大于24后效果有下降趋势 2. 隐藏层节点数目和performance的关系：4096个是个临界点，大于4096后效果有下降趋势 3. 宽的ALBERT需要深的架构吗？作者的答案是阅读全文

posted @ 2020-05-19 14:38 朱群喜_QQ囍_海疯习习阅读(162) 评论(0) 推荐(0) 编辑

FDU大学渣——海疯xx

Personal Homepage：zhuqunxi.github.io

公告