StarCoder训练与微调
BASE模型
模型大小:15.5B
训练数据量:800GB (1T token)
硬件资源:512张 Tesla A100
训练时长:24天
微调模型
微调模型:ZeRO-3
硬件资源:8张 Tesla A100
训练时长:3小时
有用链接
https://github.com/bigcode-project/starcoder/tree/main/chat
https://github.com/huggingface/blog/blob/main/starchat-alpha.md