摘要: 为视觉语言多模态模型进行偏好优化 为视觉语言多模态模型进行偏好优化 训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如 SFT (Supervised finetuning) 的传统的方法一般都需要耗费较大成本,因为这些算法需要对数据打上特定的标签。而偏好优化 (Preference Optimization) 作为一种 阅读全文
posted @ 2024-07-16 23:08 HuggingFace 阅读(728) 评论(0) 推荐(4) 编辑