10 2024 档案

摘要:重点关注带有梯度的变量,特别是累积它们或收集它们的地方 我的问题是,在训练的时候收集logits时,忘记加上.detach(),导致梯度信息也跟着收集,然后内存占用不断上升甚至超过90G 加上.detach()后,就固定在44G不变了 阅读全文
posted @ 2024-10-28 10:51 kksk43 阅读(68) 评论(0) 推荐(0) 编辑

特效
黑夜
侧边栏隐藏
点击右上角即可分享
微信分享提示