第3章：有限马尔科夫决策过程

1.Agent-Environment接口

　　Agent是学习者和决策制定者，环境是由一切Agent之外的东西组成。下图是马尔科夫决策过程的agent和environment交互过程。

　　如果说一个状态包含关于过去agent-env交互的全部信息，并且这个交互会对未来造成一定的影响，那么称这个状态具有马尔科夫性质。

MDP的dynamics 概率等式p

2.目标和奖励

　　通常，我们agent的目标是使它接收到的累积奖励最大。这就意味着并不是去最大化眼前的奖励，还是最大化整个过程中的奖励。奖励也是区分强化学习的最显著地特点之一。

　　我们设置的奖励应该是使agent能够达到我们的目标，而不是能够学会以什么样的方式来达到我们的目标。比如说，我们在下象棋的时候，agent可能会想着去吃掉对方的棋子，哪怕付出的代价是输掉这场比赛。这就是如何正确设置奖励的重要性，它的设立应该是为实现我们的目标而服务的，而不是以什么样的方式去实现。

3.返回值和片段

　　在简单的场景下，返回值是所有奖励的总和。Gt= Rt+1 + Rt+2 + Rt+3 + Rt+4 +......+RT;

　　但是如果说在有些场景系，片段不是有有限的步骤，而是无限的。为了解决这种情况，就引入了折扣因数 γ，γ是个小于等于1的数。当γ小于1的时候，无限步数Gt就会有一个有限的值；当γ等于0的时候，就表示agent只关心眼前的奖励。但是，通常情况下，只关心眼前的奖励会减少获得未来奖励的可能性。当γ接近1的时候，agent把未来的奖励也考虑进去，这个时候就会很有远见。