机器学习6-强化学习

师兄博客原文地址 https://blog.csdn.net/LogHouse/article/details/96434429

@


智能控制与优化决策课题组制作。
对应周志华《机器学习》第十六章内容。

一些问题

1、分析强化学习与监督学习的联系与差别。
监督学习就是有导师学习,所学习的样例是有标签的。
强化学习是无导师学习。但实际上,强化学习有一位隐形的导师,这个导师会告诉你所获得的奖赏,这些奖赏其实也是一种标签,不过这种标签需要通过学习得到。
2、\(\varepsilon\)-贪心法如何实现探索与利用的平衡。
探索指对未知的部分进行尝试和认知,尝试找到较当前最优解更优的解;
利用指使用已知部分的信息,保证解较优。
\(\varepsilon\)贪心法是一种平衡探索与利用的方法,以ϵ \(\varepsilon\)的概率进行探索,以\(\varepsilon-1\)的概率进行利用,通常令\(\varepsilon\)取一个较小的常数,也就是说,以大概率利用,小概率探索。不过,如果你去餐馆的次数足够多了,几乎所有餐馆你都去过了,那里就可以放心的去你现在发现最好吃的餐馆了,所以,探索的概率逐渐减小也是个不错的选择。
3、如何用赌博机算法实现强化学习任务。
在玩K-摇臂赌博机时,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以一定的概率吐出硬币,但这个概率赌徒并不知道,那要如何最大化自己的奖赏呢。最大化奖赏需要做两件事:1)尽可能准确的知道每个摇臂平均奖赏;2)尽可能多的利用平均奖赏最多的那个摇臂。
对于第一件事,需要的是多次尝试,观察记录摇臂按下的次数和获得的奖赏,计算每个摇臂的平均奖赏;对于第二件事,就是尽可能选择平均奖赏多的摇臂。
将赌博机算法用于每个状态,对每个状态分别记录个动作的尝试次数、当前平均累积奖赏等信息,然后基于\(\varepsilon\)-贪心算法之类的方法选择下一步的动作。
4、试推导\(\gamma\)折扣累积奖赏的全概率展开式(16.8)。

\[\begin{aligned} \]

\gamma^tr_{t+1}|x_0=x]\
&=\mathbb{E}\pi[r_1+\sum\infin_{t=1}\gammatr|x_0=x]\
&=\mathbb{E}\pi[r_1+\gamma\sum\infin_{t=1}\gammar|x_0=x]\
&=\sum_{a\in A}\pi(x,a)\sum_{x'\in X}P^a_{x\rightarrow x'}
(R^a_{x\rightarrow x'}+\gamma\mathbb{E}\pi
[\sum\infin_{t=0}\gammatr
|x_0=x'])\
&=\sum_{a\in A}\pi(x,a)\sum_{x'\in X}P^a_{x\rightarrow x'}
(R^a_{x\rightarrow x'}+\gamma V^\pi_\gamma(x'))
\end{aligned}$$
其中,\(\pi(x,a)\)表示在\(x\)状态下执行动作\(a\)的概率;\(P^a_{x\rightarrow x'}\)表示执行动作\(a\)之后转移到状态\(x'\)的概率;\(R^a_{x\rightarrow x'}+\gamma V^\pi_\gamma(x')\)表示到达状态\(x'\)所能获得的奖赏,其中\(R^a_{x\rightarrow x'}\)为即时奖赏,\(\gamma V^\pi_\gamma(x')\)为未来奖赏的估计。

5、什么是动态规划中的最优性原理,与强化学习中的策略更新有什么关系
最优性原理:一个最优策略的子策略必须是最优的。
在强化学习中,策略实际上是状态到动作的映射,在某一个状态下,策略决定了采取什么动作。
如果每一个状态下采取的动作都是最优动作,那么,总的策略也会是最优的。
6、完成时序差分学习中式(16.31)的推导。
时序差分学习的特点就是每执行一步策略后就进行值函数的更新。
在计算第\(t+1\)个采样\(r_{t+1}\)时按照增量平均公式有:

\[Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\frac{1}{t+1}(r_{t+1}-Q^\pi_{t}(x,a)) \]

采用近似的方法,令\(\alpha=\alpha_{t+1},\alpha\)为较小的整数。这种近似在\(t\)增大时是收敛的。结合策略改进方式(16.15)有:

\[r_{t+1}=(R^a_{x\rightarrow x'}+\gamma\max\limits_{a'\in A}+Q^\pi_{t}(x',a') \]

推出:

\[Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\alpha (R^a_{x\rightarrow x'}+\gamma\max\limits_{a'\in A}Q^\pi_{t}(x',a')-Q^\pi_{t}(x,a)) \]

综合\(\varepsilon\)-贪心法可以的到:

\[Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\alpha (R^a_{x\rightarrow x'}+\gamma Q^\pi_{t}(x',a')-Q^\pi_{t}(x,a)) \]

可结合我的这篇博文一起理解 强化学习——Q学习算法

posted on 2021-06-10 17:11  雾恋过往  阅读(151)  评论(0编辑  收藏  举报

Live2D