摘要: 假设我们搭建的模型名称为net,在训练时,我们想查看第0个block的attention中的矩阵K的梯度函数和前几个权重、梯度: net.transformer.encoder.layer[0].attn.key.weight.grad_fn (key即矩阵K) net.transformer.en 阅读全文
posted @ 2022-03-24 10:41 Picassooo 阅读(396) 评论(0) 推荐(0) 编辑