摘要: 在微调GPT/BERT模型时,会经常遇到“ cuda out of memory”的情况。这是因为transformer是内存密集型的模型,并且内存要求也随序列长度而增加。所以如果能对模型的内存要求进行粗略的估计将有助于估计任务所需的资源。 如果你想直接看结果,可以跳到本文最后。不过在阅读本文前请记 阅读全文
posted @ 2022-08-30 10:47 deephub 阅读(398) 评论(0) 推荐(0) 编辑