强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别

马尔科夫奖励过程MRP

状态转移函数：\(P\left(S_{t+1}=s^{\prime} \mid s_{t}=s\right)\)

奖励函数：\(R\left(s_{t}=s\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s\right]\)

回报：\(\mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}}\)

回报只是状态转移中的一条路径的价值

状态价值函数：回报的期望\(\begin{aligned} \mathrm{V}_{\mathrm{t}}(\mathrm{s}) &=\mathbb{E}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \\ &=\mathbb{E}\left[\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \end{aligned}\)，

状态价值函数相较于奖励函数，考虑了折扣后的未来的奖励，是一个更加靠谱的状态价值的估计;奖励函数只是考虑了当下。
状态价值函数是回报的一个期望
\(R_{t+1}表示t时刻的奖励\)

马尔科夫决策过程MDP

状态转移概率\(P\left(S_{t+1}=s^{\prime} \mid s_{t}=s，a_{t}=a\right)\)

奖励函数\(R\left(s_{t}=s，a_{t}=a\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s，a_{t}=a\right]\)

状态价值函数：\(\mathrm{v}^{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right]\)

动作价值函数，Q函数：\(q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, A_{t}=a\right]\)

posted on 2021-04-27 21:20 A2he 阅读(360) 评论(0) 编辑收藏举报

刷新页面返回顶部

强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别

马尔科夫奖励过程MRP

马尔科夫决策过程MDP

Zzz_zzZ

公告

导航