摘要: 上篇文章强化学习——详解 DQN 算法我们介绍了 DQN 算法,但是 DQN 还存在一些问题,本篇文章介绍针对 DQN 的问题的改进算法 一、Double DQN 算法 1、算法介绍 DQN的问题有:目标 Q 值(Q Target )计算是否准确?全部通过 \(max\;Q\) 来计算有没有问题?很 阅读全文
posted @ 2020-09-06 20:59 jsfantasy 阅读(2160) 评论(0) 推荐(1) 编辑
摘要: 在上一篇文章强化学习——DQN介绍 中我们详细介绍了DQN 的来源,以及对于强化学习难以收敛的问题DQN算法提出的两个处理方法:经验回放和固定目标值。这篇文章我们就用代码来实现 DQN 算法 一、环境介绍 1、Gym 介绍 本算法以及以后文章要介绍的算法都会使用 由 \(OpenAI\) 推出的\( 阅读全文
posted @ 2020-09-06 20:58 jsfantasy 阅读(3124) 评论(0) 推荐(0) 编辑
摘要: 上篇文章强化学习——状态价值函数逼近介绍了价值函数逼近(Value Function Approximation,VFA)的理论,本篇文章介绍大名鼎鼎的DQN算法。DQN算法是 DeepMind 团队在2015年提出的算法,对于强化学习训练苦难问题,其开创性的提出了两个解决办法,在atari游戏上都 阅读全文
posted @ 2020-09-06 20:56 jsfantasy 阅读(7702) 评论(0) 推荐(0) 编辑
摘要: 上篇文章强化学习——时序差分 (TD) 控制算法 Sarsa 和 Q-Learning我们主要介绍了 Sarsa 和 Q-Learning 两种时序差分控制算法,在这两种算法内部都要维护一张 Q 表格,对于小型的强化学习问题是非常灵活高效的。但是在状态和可选动作非常多的问题中,这张Q表格就变得异常巨 阅读全文
posted @ 2020-09-06 20:54 jsfantasy 阅读(1280) 评论(0) 推荐(0) 编辑
摘要: 上篇文章 强化学习——时序差分 (TD) SARSA and Q-Learning 我们介绍了时序差分TD算法解决强化学习的评估和控制问题,TD对比MC有很多优势,比如TD有更低方差,可以学习不完整的序列。所以我们可以在策略控制循环中使用TD来代替MC。优于TD算法的诸多优点,因此现在主流的强化学习 阅读全文
posted @ 2020-08-10 15:34 jsfantasy 阅读(2482) 评论(1) 推荐(2) 编辑
摘要: 在上篇文章强化学习——蒙特卡洛 (MC) 采样法的预测与控制中我们讨论了 Model Free 情况下的策略评估问题,主要介绍了蒙特卡洛(MC)采样法的预测与控制问题,这次我们介绍另外一种方法——时序差分法(TD) 一、时序差分采样法(TD) 对于MC采样法,如果我们没有完整的状态序列,那么就无法使 阅读全文
posted @ 2020-08-10 15:32 jsfantasy 阅读(1995) 评论(0) 推荐(1) 编辑
摘要: 一、问题引入 回顾上篇强化学习 2 —— 用动态规划求解 MDP我们使用策略迭代和价值迭代来求解MDP问题 1、策略迭代过程: 1、评估价值 (Evaluate) \[ v_{i}(s) = \sum_{a\in A} \pi(a|s) \left( {\color{red}R(s, a)} + \ 阅读全文
posted @ 2020-08-10 15:29 jsfantasy 阅读(1828) 评论(0) 推荐(2) 编辑
摘要: 在上一篇文章 强化学习 1 —— 一文读懂马尔科夫决策过程 MDP 介绍了马尔科夫过程,本篇接着来介绍如何使用动态规划方法来求解。 动态规划的关键点有两个: 一是问题的最优解可以由若干小问题的最优解构成,即通过寻找子问题的最优解来得到问题的最优解。 二是可以找到子问题状态之间的递推关系,通过较小的子 阅读全文
posted @ 2020-08-10 15:26 jsfantasy 阅读(2622) 评论(0) 推荐(1) 编辑
摘要: 强化学习 马尔科夫决策过程(MDP) 1、强化学习介绍 ​ 强化学习任务通常使用马尔可夫决策过程(Markov Decision Process,简称MDP)来描述,具体而言:机器处在一个环境中,每个状态为机器对当前环境的感知;机器只能通过动作来影响环境,当机器执行一个动作后,会使得环境按某种概率转 阅读全文
posted @ 2020-06-06 16:43 jsfantasy 阅读(10828) 评论(1) 推荐(5) 编辑
摘要: 深度卷积生成对抗网络(DCGAN) 生成 MNIST 手写图片 1、基本原理 生成对抗网络(GAN)由2个重要的部分构成: 生成器(Generator):通过机器生成数据(大部分情况下是图像),目的是“骗过”判别器 判别器(Discriminator):判断这张图像是真实的还是机器生成的,目的是找出 阅读全文
posted @ 2020-06-06 16:39 jsfantasy 阅读(3790) 评论(1) 推荐(1) 编辑