2024 年 4月 21 日随笔档案 - deephub

2024年4月21日

摘要： ORPO是一种新的微调技术，它将传统的监督微调和偏好对齐阶段结合到一个过程中。减少了训练所需的计算资源和时间。论文的实证结果表明，ORPO在各种模型大小和基准上都优于其他对齐方法，所以这次我们就来使用最新的Llama 3来测试下ORPO的效果。我们将使用ORPO和TRL库对新的Llama 3 8b 阅读全文

posted @ 2024-04-21 10:04 deephub 阅读(132) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告