2024 年 11月 20 日随笔档案 - MoonOut

摘要： Deep reinforcement learning from human preferences 论文阅读，以及 PrefPPO 算法阅读。阅读全文

posted @ 2024-11-20 15:16 MoonOut 阅读(82) 评论(0) 推荐(0) 编辑

月出兮彩云归 🌙