随笔分类 - 强化学习
摘要:概率密度函数 期望(expect) state s action a agent policy Π(a|s) reward r state transition p(s'|s,a) return(cumulative future reward 未来累计回报) discounted return(γ
阅读全文
摘要:Deep Q-Learning 产生和更新Q表在大状态空间环境中可能变得无效 Deep Q-Learning使用了一个神经网络,它获取一个状态,并基于该状态近似每个动作的Q-值,而不是使用Q-表。我们将使用RL Zoo训练它玩太空入侵者和其他雅达利环境,这是一个使用稳定基线的RL训练框架,提供训练脚
阅读全文
摘要:Q-Learning是RL算法: 训练 Q 函数,这是一个操作-值函数,它包含作为内部存储器的 Q 表,其中包含所有状态-操作对值。 给定一个状态和动作,我们的 Q 函数将在其 Q 表中搜索相应的值。 Q-Learning伪代码: step1:初始化Q-Table step2:使用epsilon贪婪
阅读全文
摘要:强化学习流程: 我们的代理从环境接收 — 我们接收游戏的第一帧(环境) State S0 基于代理采取的情况 — 我们的代理将向右移动 S0 action A0 环境走向新的——新的框架 State S0 环境给了代理一些——我们没有死(正面奖励+1)Reward R0 RL 循环输出一系列状态、操
阅读全文