1、介绍

1.1、探索方案的策略

1) 随机探索

2) 面对不确定性保持乐观: 估计不确定的值; 选择不确定最大的探索

3) 信息状态空间: 把代理的信息看做值的一部分; 考虑那些有助于提高reward的收益

1.2、探索的方式

1) 在状态-动作空间泰索

2) 在参数空间探索

     优势: 连续探索

     劣势: 不知道状态/动作空间

2、多臂赌博机

2.1、TotalReget定义

Lt = sigmaE(nt(a))*deltaa

2.2、随机探索方法

永远探索, TotalReget随时间线性增加; 永不探索TotalReget随时间线性增加

贪心探索会产生线性regret

乐观探索可能会产生线性regret(在不幸将最优值lock out在外时发生)

最难的问题是最优和其它解非常接近的问题; 这种相似性可以用KL散度来度量

定理: 渐进误差和时间的对数有线性正比关系; 和deltaA有线性关系; 和KL散度有反比关系

2.3、面对不确定性保持乐观的方法

置信区间和置信度

霍夫丁不等式

UCB算法, 随着时间的增大, 区间也是在逐步放大的****, 不是固定某个概率的置信度

UCB算法可以实现次线性TotalRegret

UCB可以用多种不等式去实现

BayesinUCB: 和UCB类似, 只是使用后验的概率值去计算(依赖先验知识)

概率匹配方法: 容易理解; 但是action分布不好计算

汤普森采样: 

状态信息空间: 信息的价值就是量化探索以后的单位收益

状态信息空间中的MDP, 这个MDP和环境状态中的MDP有什么差异?

状态信息空间求解方法:

1) Model-free RL, Q-learing

2) Bayesian Model-based RL, 吉特指数(Gittins, 1979)

3) Bayes-adaptive RL

3、基于上下文的赌博机

4、MDPs

Question:

在状态-动作空间探索, 状态很多怎么办? 

哪些东西可以参数化? 状态可以参数化吗? 动作可以参数化吗? 

如何计算ProbabilityMatching?

 

如果发现文中有问题,敬请联系作者批评指正,真诚欢迎您的指教,谢谢!

微信: legelsr0808

邮箱: legelsr0808@163.com