随笔分类 -  Reinforcement Learning

摘要:前言 最近又入坑RL了,要搞AutoML就要学会RL,真的是心累。。 正文 MDP里面比较重要的就是状态值函数和动作-状态值函数吧,然后再求最优状态值函数和最优动作状态值函数,状态值函数的公式推导一开始不懂,卡在了一个地方,现在记下来, 很关键的一个在于“和的期望等于期望的和” 阅读全文
posted @ 2019-06-26 20:08 嶙羽 阅读(243) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示