1、介绍
1.1、探索方案的策略
1) 随机探索
2) 面对不确定性保持乐观: 估计不确定的值; 选择不确定最大的探索
3) 信息状态空间: 把代理的信息看做值的一部分; 考虑那些有助于提高reward的收益
1.2、探索的方式
1) 在状态-动作空间泰索
2) 在参数空间探索
优势: 连续探索
劣势: 不知道状态/动作空间
2、多臂赌博机
2.1、TotalReget定义
Lt = sigmaE(nt(a))*deltaa
2.2、随机探索方法
永远探索, TotalReget随时间线性增加; 永不探索TotalReget随时间线性增加
贪心探索会产生线性regret
乐观探索可能会产生线性regret(在不幸将最优值lock out在外时发生)
最难的问题是最优和其它解非常接近的问题; 这种相似性可以用KL散度来度量
定理: 渐进误差和时间的对数有线性正比关系; 和deltaA有线性关系; 和KL散度有反比关系
2.3、面对不确定性保持乐观的方法
置信区间和置信度
霍夫丁不等式
UCB算法, 随着时间的增大, 区间也是在逐步放大的****, 不是固定某个概率的置信度
UCB算法可以实现次线性TotalRegret
UCB可以用多种不等式去实现
BayesinUCB: 和UCB类似, 只是使用后验的概率值去计算(依赖先验知识)
概率匹配方法: 容易理解; 但是action分布不好计算
汤普森采样:
状态信息空间: 信息的价值就是量化探索以后的单位收益
状态信息空间中的MDP, 这个MDP和环境状态中的MDP有什么差异?
状态信息空间求解方法:
1) Model-free RL, Q-learing
2) Bayesian Model-based RL, 吉特指数(Gittins, 1979)
3) Bayes-adaptive RL
3、基于上下文的赌博机
4、MDPs
Question:
在状态-动作空间探索, 状态很多怎么办?
哪些东西可以参数化? 状态可以参数化吗? 动作可以参数化吗?
如何计算ProbabilityMatching?
如果发现文中有问题,敬请联系作者批评指正,真诚欢迎您的指教,谢谢!
微信: legelsr0808
邮箱: legelsr0808@163.com