2024 年 8月 1 日随笔档案 - deephub

2024年8月1日

摘要： Adam(W)目前为训练LLM的主流优化器，但其内存开销较大，这是因为Adam优化器需要存储一阶动量m和二阶动量v，总内存占用至少是模型大小的两倍，这对现有的高端显卡也是一种负担。论文提出一种新的优化器Adam-mini，在不牺牲性能的情况下减少Adam优化器的内存占用。 https://avoid 阅读全文

posted @ 2024-08-01 12:26 deephub 阅读(49) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告