强化学习学习笔记（第二章，多臂赌博机）

本章节以多臂赌博机为模型，介绍了若干个在简化环境下的强化学习算法（动作不会影响下一时刻的情景和收益）

1、贪心算法，每次选择期望收益最大的动作

2、ξ-贪心，在贪心算法的基础上，有ξ的概率从所有的动作中等概率选择一个。ξ如果比较大可以更快的找到收益最大的动作，但是会影响选择选择收益最大动作的概率（ξ=0.1时，选择收益最大动作的概率收敛到91%）

3、增量式实现，用常数级的内存消耗和运算时间得到平均值，将平均值的式子变形一下即可：Q(n+1) = Q(n) + 1/n(R(n) - Q(n))

4、非平稳问题，每个动作的收益可能随时间改变，那么需要改变一下更好的处理方式，使得近期收益赋予比过去很早以前的收益更高的权重，常见的方式是步长固定，但是这样会导致最后的估算值受第一个动作的影响而产生偏差，可以用无偏固定步长技巧（练习2.7）

5、基于置信度上界的动作选择，选择可能真实值上界最大的动作，有点像A*算法，上界会随着使用动作次数的增加而减少，随着时间流逝而增加。

6、梯度赌博机算法，引入了偏好函数，偏好函数值越大，动作被选择的概率越大。这里利用的数学技巧，将梯度转化成了数学期望从而可以统计出来。

7、关联搜索，介于K臂赌博机和完整强化学习问题之间。

posted @ 2020-12-29 20:42 维和战艇机阅读(102) 评论(0) 编辑收藏举报

刷新页面返回顶部

维和战艇机