马尔科夫决策过程

马尔科夫决策要求

1.能够检测到理想状态

2.可以多次尝试采取不同动作

3.系统的下一个状态只与当前状态有关,而与之前的状态无关。在决策过程中还和当前采取的动作有关。

 

马尔科夫决策过程与5个因素有关:

S:表示状态集

A:表示一组动作

P:表示状态转移概率。Psa表示在当前状态S下,执行动作a,转移到其他状态的概率。

R:奖励还是。表示agent采取某个动作之后的及时奖励

γ:折扣系数。当γ等于0.5时,表示即时奖励占的比重为1,未来的reward占的比重为0.5.

 

状态价值函数:

 

 

1.智能体初始状态为S0

2.选择一个动作a0

3.按概率转移矩阵Psa转移到下一个状态S1

 

 

 

状态价值函数

 

posted @ 2020-04-02 10:57  地球上最后一个直男  阅读(383)  评论(0编辑  收藏  举报