会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Lex个人随想乡
Attention before pay attention
博客园
首页
新随笔
联系
订阅
管理
2023年7月8日
StarCoder训练与微调
摘要: # BASE模型 模型大小:15.5B 训练数据量:800GB (1T token) 硬件资源:512张 Tesla A100 训练时长:24天 # 微调模型 微调模型:ZeRO-3 硬件资源:8张 Tesla A100 训练时长:3小时 # 有用链接 https://github.com/bigc
阅读全文
posted @ 2023-07-08 21:00 LexLuc
阅读(684)
评论(0)
推荐(0)
编辑