使用ORPO微调Llama 3
ORPO是一种新的微调技术,它将传统的监督微调和偏好对齐阶段结合到一个过程中。减少了训练所需的计算资源和时间。论文的实证结果表明,ORPO在各种模型大小和基准上都优于其他对齐方法,所以这次我们就来使用最新的Llama 3来测试下ORPO的效果。
我们将使用ORPO和TRL库对新的Llama 3 8b模型进行微调。
https://avoid.overfit.cn/post/8391f00435a4486298edac0a8532fed9
ORPO是一种新的微调技术,它将传统的监督微调和偏好对齐阶段结合到一个过程中。减少了训练所需的计算资源和时间。论文的实证结果表明,ORPO在各种模型大小和基准上都优于其他对齐方法,所以这次我们就来使用最新的Llama 3来测试下ORPO的效果。
我们将使用ORPO和TRL库对新的Llama 3 8b模型进行微调。
https://avoid.overfit.cn/post/8391f00435a4486298edac0a8532fed9