Adam-mini:内存占用减半,性能更优的深度学习优化器

Adam(W)目前为训练LLM的主流优化器,但其内存开销较大,这是因为Adam优化器需要存储一阶动量m和二阶动量v,总内存占用至少是模型大小的两倍,这对现有的高端显卡也是一种负担。论文提出一种新的优化器Adam-mini,在不牺牲性能的情况下减少Adam优化器的内存占用。

 

https://avoid.overfit.cn/post/fdf7a6cfd34f4158aaac31a6ed3cc9b6

posted @ 2024-08-01 12:26  deephub  阅读(49)  评论(0编辑  收藏  举报