2024 年 11月 30 日随笔档案 - MoonOut

摘要： LiRE 的主要贡献（故事）：1. 构造 A>B>C 的 RLT，利用二阶偏好信息；2. 使用线性 reward model，提升 PbRL 性能。阅读全文

posted @ 2024-11-30 16:07 MoonOut 阅读(104) 评论(0) 推荐(0) 编辑

月出兮彩云归 🌙