StarCoder训练与微调

BASE模型

模型大小:15.5B
训练数据量:800GB (1T token)
硬件资源:512张 Tesla A100
训练时长:24天

微调模型

微调模型:ZeRO-3
硬件资源:8张 Tesla A100
训练时长:3小时

有用链接

https://github.com/bigcode-project/starcoder/tree/main/chat
https://github.com/huggingface/blog/blob/main/starchat-alpha.md

posted @ 2023-07-08 21:00  LexLuc  阅读(684)  评论(0编辑  收藏  举报