强化学习学习笔记(第二章,多臂赌博机)

本章节以多臂赌博机为模型,介绍了若干个在简化环境下的强化学习算法(动作不会影响下一时刻的情景和收益)

1、贪心算法,每次选择期望收益最大的动作

2、ξ-贪心,在贪心算法的基础上,有ξ的概率从所有的动作中等概率选择一个。ξ如果比较大可以更快的找到收益最大的动作,但是会影响选择选择收益最大动作的概率(ξ=0.1时,选择收益最大动作的概率收敛到91%)

3、增量式实现,用常数级的内存消耗和运算时间得到平均值,将平均值的式子变形一下即可:Q(n+1) = Q(n) + 1/n(R(n) - Q(n))

4、非平稳问题,每个动作的收益可能随时间改变,那么需要改变一下更好的处理方式,使得近期收益赋予比过去很早以前的收益更高的权重,常见的方式是步长固定,但是这样会导致最后的估算值受第一个动作的影响而产生偏差,可以用无偏固定步长技巧(练习2.7)

5、基于置信度上界的动作选择,选择可能真实值上界最大的动作,有点像A*算法,上界会随着使用动作次数的增加而减少,随着时间流逝而增加。

6、梯度赌博机算法,引入了偏好函数,偏好函数值越大,动作被选择的概率越大。这里利用的数学技巧,将梯度转化成了数学期望从而可以统计出来。

7、关联搜索,介于K臂赌博机和完整强化学习问题之间。

posted @ 2020-12-29 20:42  维和战艇机  阅读(102)  评论(0编辑  收藏  举报