会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
2024年4月21日
使用ORPO微调Llama 3
摘要: ORPO是一种新的微调技术,它将传统的监督微调和偏好对齐阶段结合到一个过程中。减少了训练所需的计算资源和时间。论文的实证结果表明,ORPO在各种模型大小和基准上都优于其他对齐方法,所以这次我们就来使用最新的Llama 3来测试下ORPO的效果。 我们将使用ORPO和TRL库对新的Llama 3 8b
阅读全文
posted @ 2024-04-21 10:04 deephub
阅读(132)
评论(0)
推荐(0)
编辑
公告