2023 年 3月 10 日随笔档案 - Shiyu_Huang

2023年3月10日

摘要： 1. Fine-Tuning Language Models from Human Preferences reward model：774M参数量的GPT-2，先进行了有监督训练训练loss: 其中r(x,y)代表reward model，x代表输入或者prompt，y代表输出或者reponse 阅读全文

posted @ 2023-03-10 14:51 Shiyu_Huang 阅读(376) 评论(0) 推荐(0) 编辑

黄世宇@智谱AI，OpenRL Lab负责人，强化学习，LLM，通用人工智能[OpenRL][知乎][GitHub][Linkedin]如果你对人工智能前沿感兴趣，欢迎联系并加入我们！

黄世宇@智谱AI，OpenRL Lab负责人，强化学习，LLM，通用人工智能
[OpenRL][知乎][GitHub][Linkedin]
如果你对人工智能前沿感兴趣，欢迎联系并加入我们！