2017年10月8日

摘要: 我们通过参数θ定义偏好函数$h(s,a,\theta)$,通过h的softmax表示$\pi(a|s)$,然后根据$\pi(a,s)$计算优劣度$\eta(\theta)=v_{\pi_{\theta}}(s_0)$,最后,通过计算$\eta$对$\theta$的梯度,来实现$\theta$的更新。 阅读全文
posted @ 2017-10-08 22:33 米老虎M 阅读(1975) 评论(0) 推荐(0) 编辑
摘要: 资格迹Eligibility Traces是RL中一项基本技术,Sarsa, Q-Learning等一切TD类方法,都可以用资格迹来提升学习效率。提升效率的方式是不用等到n-step再去更新n步前的value。 资格迹和n-步Bootstrap一样,将MC和TD进行了统一。 12.1 λ回报 在第七 阅读全文
posted @ 2017-10-08 20:56 米老虎M 阅读(2703) 评论(0) 推荐(1) 编辑

2017年10月7日

摘要: 10.1 片段性任务的半梯度控制 10.2 n步Sarsa控制 10.3 平均奖励:连续任务的新设定 定义一个策略的优劣函数:依照该策略执行的平均奖励 其中和起始状态无关,称为各态遍历性。早期任何决策的影响都是暂时性的,长期的平均收益仅仅取决于策略本身和环境的转移概率 $\eta$函数用来评估一个策 阅读全文
posted @ 2017-10-07 13:46 米老虎M 阅读(288) 评论(0) 推荐(0) 编辑

2017年10月5日

摘要: 对于状态空间太大的问题,表格类方法无法存储这么大的价值表,也没有办法穷尽这么多的状态。考虑到很多状态是相似的,知道一个状态的价值也就大概知道类似状态的价值,因此可以采用函数近似的方法,函数近似是监督学习的一个应用。 这一章我们主要做价值函数的近似。我们定义一个N维参数$\boldsymbol \th 阅读全文
posted @ 2017-10-05 22:12 米老虎M 阅读(543) 评论(0) 推荐(0) 编辑
摘要: 8.1 模型与规划 规划,指利用已有经历对环境提炼模型,减少对环境交互的依赖。 8.2 Dyna框架 8.3 当模型不对时 第一种情况,原路已经行不通,在堵塞处往返多次后,value会被慢慢修正,并找到正确的路 第二种情况,发现新的短路,这种情况吧Dyna-Q几乎找不到这条路,但是Dyna-Q+作了 阅读全文
posted @ 2017-10-05 21:53 米老虎M 阅读(312) 评论(0) 推荐(0) 编辑
摘要: 多步TD是介于单步TD和MC之间的一种方法 7.1 多步TD预测 首先,定义n-step return: 得出n步迭代更新: 其中$G_t^{(n)}$满足下列误差递减性质: 当n取一个折衷值的时候,平方误差最小 7.2 n步Sarsa 将状态价值换为动作价值,重新描述$G_t^{(n)}$: 以及 阅读全文
posted @ 2017-10-05 09:59 米老虎M 阅读(671) 评论(0) 推荐(0) 编辑

2017年10月3日

摘要: TD是一个结合DP和MC之间的方法。TD不需要环境模型,但是又可以bootstrap。 6.1 TD预测 典型的TD(0)预测方程: 看第三章关于状态价值的等式: MC用的是第一行,它之所以为估计,因为不知道$G_t$的期望值,而使用的采样来做的平均。 DP用的是最后一行,它之所以为估计,是因为不知 阅读全文
posted @ 2017-10-03 22:49 米老虎M 阅读(2127) 评论(0) 推荐(1) 编辑
摘要: 5.1 蒙特卡洛预测 分为两种:First-Visit MC和Every-Visit MC,前者用的更多。后者用于函数近似和Eligibility Traces 5.2 蒙特卡洛评估action value 如果没有模型(即不知道每个a会得到什么样的s),则应该使用action value而不是st 阅读全文
posted @ 2017-10-03 20:01 米老虎M 阅读(930) 评论(0) 推荐(0) 编辑
摘要: 最优价值函数满足下列条件: 4.1 策略评估 策略评估通过反复迭代的方式来进行: 4.2 策略改进 4.3 策略迭代 综合4.1和4.2,得到策略迭代算法: 4.4 价值迭代 对4.3进行简化,两步合为一步: 4.5 异步动态规划 通过安排迭代顺序,而不是每次都整个扫一遍,来更快地获得我们想要的状态 阅读全文
posted @ 2017-10-03 18:46 米老虎M 阅读(462) 评论(0) 推荐(0) 编辑
摘要: 2.1 k臂赌博机问题 定义action value为期望奖励: 通常用平均值来估算: 2.2 action value方法 贪心法是一直估算值最大的action $\epsilon$贪心是指以$\epsilon$的概率随机选择一个action。对于方差较大的问题来说,选择较大的$\epsilon$ 阅读全文
posted @ 2017-10-03 12:56 米老虎M 阅读(2351) 评论(0) 推荐(0) 编辑

导航