摘要:
TinyBERT: 提出了一种基于Transformer架构的蒸馏方法(Transformer distillation) 两阶段的框架, a.预训练阶段 ( generaldistillation) b.fine-tuning阶段 (task-specific distillation) 对Emb 阅读全文
摘要:
首先看下BERT和ALBERT模型的一些版本配置 1. Layer个数和performance的关系:24层是个临界点,大于24后效果有下降趋势 2. 隐藏层节点数目和performance的关系:4096个是个临界点,大于4096后效果有下降趋势 3. 宽的ALBERT需要深的架构吗?作者的答案是 阅读全文