【转载】深度强化学习处理cartpole为什么reward很难超过200? - Angry_Panda - 博客园

【转载】深度强化学习处理cartpole为什么reward很难超过200?

原贴地址：

https://www.zhihu.com/question/266493753

一直在看强化学习方面的内容，cartpole是最简单的入门实验环境，最原始的评判标准是连续100次episode的奖励均值在195以上即可认定是到达最优，说明此问题得以解决，（但是有很多的研究是没有采用这个条件的，也就是按照训练的次数固定，在一定的训练次数后看测试时的奖励均值和方差）。如果我们不按照这个评价标准来运行该环境的话，那么我们需要对gym中的某些原始设定进行修改。

----------------------------------------------------------------------------------------

在文件gym/envs/__init__.py 中，限定了max_episode_steps

register(

id='CartPole-v0',

entry_point='gym.envs.classic_control:CartPoleEnv',

max_episode_steps=200,

reward_threshold=195.0,

)

作者：冰璐
链接：https://www.zhihu.com/question/266493753/answer/317795225
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

------------------------------------------------------------------------------------------------

posted on 2019-03-23 07:49 Angry_Panda 阅读(2025) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列：如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配，妙~啊~

历史上的今天：
2018-03-23 Android studio2 中的 SDK Manager的使用-------Android SDK 的安装与更新（Install missing platform(s) and sync project 编译错误解决）
2018-03-23 Android studio 自动导入(全部)包 import （转）

公告

个人openI地址(启智AI平台)：
https://openi.pcl.ac.cn/devilmaycry812839668

GPU服务器租赁地址：
https://www.gpushare.com/

个人gitee地址：
https://gitee.com/devilmaycry812839668

个人github地址：
https://github.com/devilmaycry812839668

CCF会议日程：
https://ccfddl.com/

Angry Panda ！！！

支持一下：

支持一下：

昵称： Angry_Panda
园龄： 8年2个月
粉丝： 172
关注： 13

导航

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

统计

随笔 - 2479
文章 - 0
评论 - 374
阅读 - 298万

随笔档案

阅读排行榜

评论排行榜

1. 浪潮计算平台之AI方向——AI_Station开发环境的使用总结(26)

推荐排行榜

最新评论

1. Re:docker报错——docker_Error response from daemon_Get "https://registry-1.docker.io/v2/"
@xuanyi170 这个镜像时好时坏，我的解决方法就是多试试，另一种方式那就是再加入几个其他的镜像地址，如：...
--Angry_Panda