强化学习学习笔记(1):MDPs and Bellman Equations
学习目标
1.了解Agent-Environment交互
2.了解什么是MDP(马尔可夫决策过程)以及如何解释过渡图
3.了解价值函数,动作价值函数和策略函数
4.了解价值函数和动作值函数的Bellman方程和Bellman最优性方程
1.智能体和环境交互:智能体在每个步骤t接收状态S_t,执行动作A_t并接收奖励R_ {t + 1}。 根据策略函数pi选择动作。
2.总回报G_t是从时间t开始的所有奖励之和。 未来奖励以折扣率g ^ k折价。
3.马尔可夫性质:在时间t + 1处环境的响应仅取决于时间t处的状态和动作表示。 未来与现在无关,与过去无关。 即使环境不能完全满足Markov属性,我们仍将其视为真实,并尝试将状态表示构造为近似Markov。
4.马尔可夫决策过程(MDP):由状态集S,动作集A和单步动力学p(s',r | s,a)定义。 如果我们对环境有完整的了解,我们就会知道过渡动态。 在实践中,我们通常不知道完整的MDP(但我们知道这是一些MDP)。