随笔档案「2020年3月27日」：强化学习策略梯度 ... - lepeCoder

2020年3月27日

摘要：策略梯度 value based的强化学习方法对价值函数进行了近似表示，policy based使用了类似的思路，策略$\pi$可以被描述为一个包含参数$\theta$的函数 $$ \pi_{\theta}(s, a)=P(a | s, \theta) \approx \pi(a | s) $$ 我阅读全文

posted @ 2020-03-27 19:35 lepeCoder 阅读(881) 评论(0) 推荐(0)

lepeCoder

杨柳岸小鹏残月个人博客

公告