2018 年 3月 27 日随笔档案 - Shiyu_Huang

2018年3月27日

摘要： Policy Gradient是区别于Q-Learning为代表的value based的方法。policy gradient又可以叫reinforce算法(Williams, 1992)。如今的ACTOR-CRITIC也就是基于policy gradient。该方法不能制表，只能对policy进阅读全文

posted @ 2018-03-27 00:49 Shiyu_Huang 阅读(539) 评论(0) 推荐(0) 编辑

黄世宇@智谱AI，OpenRL Lab负责人，强化学习，LLM，通用人工智能[OpenRL][知乎][GitHub][Linkedin]如果你对人工智能前沿感兴趣，欢迎联系并加入我们！

黄世宇@智谱AI，OpenRL Lab负责人，强化学习，LLM，通用人工智能
[OpenRL][知乎][GitHub][Linkedin]
如果你对人工智能前沿感兴趣，欢迎联系并加入我们！