BAdam: A Memory Efficient Full Parameter Optimization Method for Large Language Models

Luo Q., Yu H. and Li X. BAdam: A memory efficient full parameter optimization method for large language models. arXiv preprint, 2024.

本文介绍了一种 Block corrdinate descent (BCD) 的训练方式.

BAdam

  • 当模型本身很大的时候, 训练它会成为一个很大的问题, 所以现在会流行一些 LoRA 等低质方法用于更快速地更新模型.

  • 这个问题其实很大程度上是因为常用地 Adam 至少需要缓存 2x 模型的量, 所以本文提出的 BAdam 就是希望能够每次仅更新其中的一个 block.

  • BAdam 将整个模型分成 D 份: π1,,πi,,πD, 并假设其中的参数为 θ={θπ1,,θπi,,θπD}.

  • 每一次那个更新, 仅更新其中的某一个 block:

    θπit+1argminθπiRdi1nj=1nj(θπ1t+1,,θπi1t+1,θπi,θπi+1t,θπDt).

  • 具体的算法如下, 注意到, 对每个 block 会更新 K 次:

代码

[official]

posted @   馒头and花卷  阅读(120)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
历史上的今天:
2022-08-27 DropEdge: Towards Deep Graph Convolutional Networks on Node Classification
点击右上角即可分享
微信分享提示