随笔分类 - Reinforcement Learning

强化学习之MDP

摘要：前言最近又入坑RL了，要搞AutoML就要学会RL，真的是心累。。正文 MDP里面比较重要的就是状态值函数和动作-状态值函数吧，然后再求最优状态值函数和最优动作状态值函数，状态值函数的公式推导一开始不懂，卡在了一个地方，现在记下来，很关键的一个在于“和的期望等于期望的和” 阅读全文

posted @ 2019-06-26 20:08 嶙羽阅读(248) 评论(0) 推荐(0)

嶙羽