博雅大数据机器学习十讲第十讲

强化学习方法形式化为\(MDP\)，\(MDP\)是序列决策算法的一般数学框架
通常将\(MDP\)表示为四元组\((S,A,P,R)\)：
- \(S\)表示状态空间，是描述环境的状态，表示为\(S=\{s_1,s_2,s_3,...\}\)
- \(A\)表示行动空间，是智能体可执行的行动，表示为\(A=\{a_1,a_2,a_3,...\}\)
- \(P\)表示状态转移概率，状态\(s\)转移到状态\(s\)的概率记为\(P_a(s,s^{'})=p(S_{t+1}=s^{'}|S_t=s,A_t=a)\)
- \(R\)表示奖励，是环境根据智能体的动作反馈的奖励，记为\(R_a(s,s^{'})=E(r_t|S_t=s,A_t=a)\)

策略

目标

\[E(G_t|S_t=s)=E(\sum^\infty_{k=0}\gamma^kR_{t+k}|S_t=s) \]

\[V_\pi(s)=R_a(s,s^{'})+\gamma\sum_{s^{'}}P_a(s,s^{'})V_\pi(s^{'}) \]

\[V(s)=max_a(R_a(s,s^{'})+\gamma\sum_{s^{'}}P_a(s,s^{'})V_\pi(s^{'})) \]

最优策略为：\(argmax_a(R_a(s,s^{'})+\gamma\sum_{s^{'}}p_a(s,s^{'})V_\pi(s^{'}))\)
\(Q_\pi(s,a)\)的表达式为：\(Q_\pi(s,a)=\sum_{s^{'}\in S}P_a(s,s^{'})[R_a(s,s^{'})+\gamma Q_\pi(s^{'},a^{'})]\)
最优的\(Q\)函数为：

\[Q(s,a)=\sum_{s^{'}\in S}P_a(s,s^{'})[R_a(s,s^{'})+\gamma \max_{a^{'}}( Q(s^{'},a^{'}))] \]

在\(Q-learning\)中，当状态和行动空间是离散且维数不高是，用\(Q-Table\)储存每个状态行动对的\(Q\)值，可以实现行动决策。而当状态和行动空间是高维连续时，使用\(Q-Table\)不现实，例如雅达利游戏。

设计多种（12种）图像修复工具，\(DQN\)比现有图像修复模型复杂度低，修复能力更优异
工具的选择视为马尔可夫决策过程\((MDP)\)：
- 行动\((action)\)：每个行动表示使用某个修复工具
- 状态\((state)\)：输入图像和上一时刻行动估值向量
- 奖励\((reward)\)：图像峰值噪比的变化

无

posted @ 2021-02-04 12:58 DemonSlayer 阅读(113) 评论(0) 编辑收藏举报

刷新页面返回顶部

DemonSlayer