强化学习Chapter2——优化目标(1)

强化学习Chapter2——优化目标(1)

上节涉及强化学习基本思路以及利用数学方式表征强化学习,但对强化学习的目标并没有进行详尽的定义,而仅用回报的定义一笔带过。本节的目标旨在不涉及算法地详述强化学习的目标。

强化学习一般性目标

上文提到,强化学习的目标可以解释为:在一个 Trajectories τ 中积累的 Reward 尽可能高,也即是 Return 尽可能高。为了表示这个目标,首先要表征 Trajectory,而后者的形式为:

(s0,a1,s1,a2,s3,...)

为了保证结论的普适性,假设环境的迁移也是随机的,即在给定 st,at 后,迁移到 st+1 是一个概率行为,也就是说 st+1 是从一个分布中采样获得的。

P(st+1|st,at)

除此之外,at 实际上也是 st 的函数(这里依然假设策略是随机的),即

atπ(|st)

因此表征单步的状态迁移,实际上是如下形式:

P(st+1|st,at)π(at|st)

最后,任何轨迹都是从一个 s0 出发的,假设其服从 start-state distribution ρ0

s0ρ0()

在此基础上就能采样出一条轨迹:

P(τ|π)=ρ0(s0)t=0T1P(st+1|st,at)π(at|st)

若设对于轨迹 τ 的回报 Return 为 R(τ),强化学习目标为 J,则有:

J(π)=τP(τ|π)R(τ)=Eτπ[R(τ)]

可以看出,这一切的缘由,都是策略 π ,因此强化学习的优化目标,就是获取使得 J 最大的 π

π=argmaxπJ(π)

右上角的星号表明他是最优的(optimal policy)。

posted @   tsyhahaha  阅读(244)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 2025年我用 Compose 写了一个 Todo App
· 张高兴的大模型开发实战:(一)使用 Selenium 进行网页爬虫
点击右上角即可分享
微信分享提示