2019 年 5月 14 日随笔档案 - Roger_Ceng

2019年5月14日

摘要：去年，OpenAI和DeepMind联手做了当时最酷的实验，不用经典的奖励信号来训练智能体，而是根据人类反馈进行强化学习的新方法。有篇博客专门讲了这个实验 Learning from Human Preferences，原始论文是《 Deep Reinforcement Learning from 阅读全文

posted @ 2019-05-14 07:44 Roger_Ceng 阅读(1099) 评论(0) 推荐(0) 编辑

Roger_Ceng

公告