2024 年 10月 24 日随笔档案 - deephub

2024年10月24日

摘要：在本地环境下对大规模语言模型（LLMs）进行微调时，由于GPU显存限制，采用大批量训练通常难以实现。为解决此问题，一般普遍会采用梯度累积技术来模拟较大的批量规模。该方法不同于传统的每批次更新模型权重的方式，而是通过在多个小批量上累积梯度，在达到预设的累积次数后才执行权重更新。这种方法有效地实现了大批阅读全文

posted @ 2024-10-24 09:40 deephub 阅读(34) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告