强化学习Chapter2——优化目标(1)
强化学习Chapter2——优化目标(1)
上节涉及强化学习基本思路以及利用数学方式表征强化学习,但对强化学习的目标并没有进行详尽的定义,而仅用回报的定义一笔带过。本节的目标旨在不涉及算法地详述强化学习的目标。
强化学习一般性目标
上文提到,强化学习的目标可以解释为:在一个 Trajectories 中积累的 Reward 尽可能高,也即是 Return 尽可能高。为了表示这个目标,首先要表征 Trajectory,而后者的形式为:
为了保证结论的普适性,假设环境的迁移也是随机的,即在给定 后,迁移到 是一个概率行为,也就是说 是从一个分布中采样获得的。
除此之外, 实际上也是 的函数(这里依然假设策略是随机的),即
因此表征单步的状态迁移,实际上是如下形式:
最后,任何轨迹都是从一个 出发的,假设其服从 start-state distribution :
在此基础上就能采样出一条轨迹:
若设对于轨迹 的回报 Return 为 ,强化学习目标为 ,则有:
可以看出,这一切的缘由,都是策略 ,因此强化学习的优化目标,就是获取使得 最大的 :
右上角的星号表明他是最优的(optimal policy)。
标签:
强化学习