连接
摘要: TinyBERT: 提出了一种基于Transformer架构的蒸馏方法(Transformer distillation) 两阶段的框架, a.预训练阶段 ( generaldistillation) b.fine-tuning阶段 (task-specific distillation) 对Emb 阅读全文
posted @ 2020-05-19 23:21 朱群喜_QQ囍_海疯习习 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 首先看下BERT和ALBERT模型的一些版本配置 1. Layer个数和performance的关系:24层是个临界点,大于24后效果有下降趋势 2. 隐藏层节点数目和performance的关系:4096个是个临界点,大于4096后效果有下降趋势 3. 宽的ALBERT需要深的架构吗?作者的答案是 阅读全文
posted @ 2020-05-19 14:38 朱群喜_QQ囍_海疯习习 阅读(162) 评论(0) 推荐(0) 编辑
Map