摘要: Bert模型参数量估算 由于BERT模型用到的是Transformer的编码器部分,因此需要先对Transformer的编码器做参数估算 1 Transformer单独一个编码器(Encoder-block)的参数量估算(忽略偏置、Add&Norm层参数等次要部分): H为词向量维度,A为自注意力头 阅读全文
posted @ 2021-11-20 13:00 快到皖里来 阅读(1340) 评论(0) 推荐(0) 编辑