Loading

摘要: 4卡080Ti,总的batchsize=4,使用tmux挂在后台训练,经过几个小时发现一直卡在第26个epoch(共60个epoch)的第1400个batch,nvidia-smi查看发现0号和2号卡满载,1号和3号卡在休息...于是只能Ctrl+C。结果突然发现tmux显示到了第4800个batc 阅读全文
posted @ 2022-12-07 20:16 脂环 阅读(1008) 评论(1) 推荐(0) 编辑
摘要: 起因是把别人的用clip做分割的模型加到自己的框架上,结果报这个错。Google了一下,发现可能是如下几种原因:多个loss都要backward却没有retain graphhttps://www.zhihu.com/question/414980879,或者是rnn时对于前一次的输出没有detac 阅读全文
posted @ 2022-12-07 10:46 脂环 阅读(1134) 评论(0) 推荐(0) 编辑