摘要:一、动态规划 当问题具有下列两个性质时,通常可以考虑使用动态规划来求解: 一个复杂问题的最优解由数个小问题的最优解构成,可以通过寻找子问题的最优解来得到复杂问题的最优解 子问题在复杂问题内重复出现,使得子问题的解可以被存储起来重复利用 马尔科夫决策过程具有上述两个属性:贝尔曼方程把问题递归为求解子问
阅读全文
摘要:一、概念: DP这个词,指的是一系列的算法,这些算法主要用来解决:当我有了一个可以完美模拟马尔可夫过程的模型之后,如何计算最优policies的问题。注意是policies,表明最优的策略可能不止一个。经典的DP算法在强化学习中的应用受限的原因有两个:一个是强假设满足不了,就是无法保证我能先有一个完
阅读全文
摘要:一、概念 1、finite MDP:如果一个强化学习任务满足马尔科夫性质,那么就可以把这个任务叫做马尔科夫过程。如果状态空间和动作空间是有限的,那么就叫做有限马尔科夫过程,即finite MDP。 2、状态S、动作A、转移概率P、期望价值r、 一个典型的finite MDP 由状态集、动作集和一步内
阅读全文
摘要:视频:David Silver深度强化算法学习 +项目讲解 书籍:reinforcement learning 博客:https://blog.csdn.net/lagrangesk/article/details/80943045 一、强化学习 人类通常从与外界环境的交互中学习。 当我们在开车或者
阅读全文
摘要:看这篇https://blog.csdn.net/qq_16234613/article/details/80268564 1、DQN 原因:在普通的Q-learning中,当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值,而当状态和动作空间是高维连续时,使用Q-Tab
阅读全文
摘要:1、Q-learning主要是Q表: 当前状态s1,接下来可以有两个动作选择,看电视a1和学习a2,对于agent人来说,可以根据reward来作出决策(Policy)。目的就是得到奖励最大。 Q-learning的目的就是学习特定state下、特定Action的价值。 Q-learning的方法是
阅读全文
摘要:1、介绍:强化学习是什么? 假定一个智能体(agent),在一个未知的环境(environment)中处于当前状态(state),采取了一个行动(action),然后收获了一个回报(reward),并进入了下一个状态。最终目的是求解一个策略让agent的回报最大化。 解决实际问题:明天去打球还是学习
阅读全文