米老虎M

增强学习笔记第十三章策略梯度方法

摘要：我们通过参数θ定义偏好函数$h(s,a,\theta)$，通过h的softmax表示$\pi(a|s)$，然后根据$\pi(a,s)$计算优劣度$\eta(\theta)=v_{\pi_{\theta}}(s_0)$，最后，通过计算$\eta$对$\theta$的梯度，来实现$\theta$的更新。阅读全文

posted @ 2017-10-08 22:33 米老虎M 阅读(1968) 评论(0) 推荐(0) 编辑

增强学习笔记第十二章资格迹

摘要：资格迹Eligibility Traces是RL中一项基本技术，Sarsa, Q-Learning等一切TD类方法，都可以用资格迹来提升学习效率。提升效率的方式是不用等到n-step再去更新n步前的value。资格迹和n-步Bootstrap一样，将MC和TD进行了统一。 12.1 λ回报在第七阅读全文

posted @ 2017-10-08 20:56 米老虎M 阅读(2644) 评论(0) 推荐(1) 编辑

增强学习笔记第十章 On-Policy控制的近似

摘要： 10.1 片段性任务的半梯度控制 10.2 n步Sarsa控制 10.3 平均奖励：连续任务的新设定定义一个策略的优劣函数：依照该策略执行的平均奖励其中和起始状态无关，称为各态遍历性。早期任何决策的影响都是暂时性的，长期的平均收益仅仅取决于策略本身和环境的转移概率 $\eta$函数用来评估一个策阅读全文

posted @ 2017-10-07 13:46 米老虎M 阅读(286) 评论(0) 推荐(0) 编辑

增强学习笔记第九章 On-Policy预测的近似

摘要：对于状态空间太大的问题，表格类方法无法存储这么大的价值表，也没有办法穷尽这么多的状态。考虑到很多状态是相似的，知道一个状态的价值也就大概知道类似状态的价值，因此可以采用函数近似的方法，函数近似是监督学习的一个应用。这一章我们主要做价值函数的近似。我们定义一个N维参数$\boldsymbol \th 阅读全文

posted @ 2017-10-05 22:12 米老虎M 阅读(533) 评论(0) 推荐(0) 编辑

增强学习笔记第八章表格类方法的规划与学习

摘要： 8.1 模型与规划规划，指利用已有经历对环境提炼模型，减少对环境交互的依赖。 8.2 Dyna框架 8.3 当模型不对时第一种情况，原路已经行不通，在堵塞处往返多次后，value会被慢慢修正，并找到正确的路第二种情况，发现新的短路，这种情况吧Dyna-Q几乎找不到这条路，但是Dyna-Q+作了阅读全文

posted @ 2017-10-05 21:53 米老虎M 阅读(310) 评论(0) 推荐(0) 编辑

增强学习笔记第七章多步Bootstrap

摘要：多步TD是介于单步TD和MC之间的一种方法 7.1 多步TD预测首先，定义n-step return: 得出n步迭代更新：其中$G_t^{(n)}$满足下列误差递减性质：当n取一个折衷值的时候，平方误差最小 7.2 n步Sarsa 将状态价值换为动作价值，重新描述$G_t^{(n)}$：以及阅读全文

posted @ 2017-10-05 09:59 米老虎M 阅读(661) 评论(0) 推荐(0) 编辑

增强学习笔记第六章 TD方法

摘要： TD是一个结合DP和MC之间的方法。TD不需要环境模型，但是又可以bootstrap。 6.1 TD预测典型的TD(0)预测方程：看第三章关于状态价值的等式： MC用的是第一行，它之所以为估计，因为不知道$G_t$的期望值，而使用的采样来做的平均。 DP用的是最后一行，它之所以为估计，是因为不知阅读全文

posted @ 2017-10-03 22:49 米老虎M 阅读(2112) 评论(0) 推荐(1) 编辑

增强学习笔记第五章蒙特卡洛方法

摘要： 5.1 蒙特卡洛预测分为两种：First-Visit MC和Every-Visit MC，前者用的更多。后者用于函数近似和Eligibility Traces 5.2 蒙特卡洛评估action value 如果没有模型（即不知道每个a会得到什么样的s），则应该使用action value而不是st 阅读全文

posted @ 2017-10-03 20:01 米老虎M 阅读(916) 评论(0) 推荐(0) 编辑

增强学习笔记第四章动态规划

摘要：最优价值函数满足下列条件： 4.1 策略评估策略评估通过反复迭代的方式来进行： 4.2 策略改进 4.3 策略迭代综合4.1和4.2，得到策略迭代算法： 4.4 价值迭代对4.3进行简化，两步合为一步： 4.5 异步动态规划通过安排迭代顺序，而不是每次都整个扫一遍，来更快地获得我们想要的状态阅读全文

posted @ 2017-10-03 18:46 米老虎M 阅读(457) 评论(0) 推荐(0) 编辑

增强学习笔记第二章多臂赌博机问题

摘要： 2.1 k臂赌博机问题定义action value为期望奖励：通常用平均值来估算： 2.2 action value方法贪心法是一直估算值最大的action $\epsilon$贪心是指以$\epsilon$的概率随机选择一个action。对于方差较大的问题来说，选择较大的$\epsilon$ 阅读全文

posted @ 2017-10-03 12:56 米老虎M 阅读(2334) 评论(0) 推荐(0) 编辑

公告

导航