摘要: LiRE 的主要贡献(故事):1. 构造 A>B>C 的 RLT,利用二阶偏好信息;2. 使用线性 reward model,提升 PbRL 性能。 阅读全文
posted @ 2024-11-30 16:07 MoonOut 阅读(104) 评论(0) 推荐(0) 编辑