【转载】 深度强化学习处理cartpole为什么reward很难超过200?

原贴地址:

https://www.zhihu.com/question/266493753

一直在看强化学习方面的内容,cartpole是最简单的入门实验环境,最原始的评判标准是连续100次episode的奖励均值在195以上即可认定是到达最优,说明此问题得以解决,(但是有很多的研究是没有采用这个条件的,也就是按照训练的次数固定,在一定的训练次数后看测试时的奖励均值和方差)。如果我们不按照这个评价标准来运行该环境的话,那么我们需要对gym中的某些原始设定进行修改。

 

----------------------------------------------------------------------------------------

 

 

 

 

 

 

 

 

 

在文件gym/envs/__init__.py 中,限定了max_episode_steps

register(

id='CartPole-v0',

entry_point='gym.envs.classic_control:CartPoleEnv',

max_episode_steps=200,

reward_threshold=195.0,

)

 
 
 
 
 
 
 


作者:冰璐
链接:https://www.zhihu.com/question/266493753/answer/317795225
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 
 
 
------------------------------------------------------------------------------------------------
 
 
 
 
 
 
 
 
 
 
 

posted on 2019-03-23 07:49  Angry_Panda  阅读(1986)  评论(0编辑  收藏  举报

导航