摘要: 如果你曾经训练过像 BERT 或 RoBERTa 这样的大型 NLP 模型,你就会知道这个过程是极其漫长的。由于其庞大的规模,训练此类模型可能会持续数天。当需要在小型设备上运行它们时,就会发现正在以巨大的内存和时间成本为日益增长的性能付出代价。 有一些方法可以减轻这些痛苦并且对模型的性能影响很小,这 阅读全文
posted @ 2021-12-13 11:18 deephub 阅读(224) 评论(0) 推荐(0) 编辑