强化学习:reward function shaping —— 着陆器(lander)游戏中的奖励函数的设计
lander 游戏是强化学习问题中常使用的一个游戏场景,不同人对该问题都设置了不同的reward function,一直也没有对该游戏的各种reward function的设计做一个记录,正好看视频看到了一个该游戏的reward function的设计,这里mark下。
资料来源:
https://www.youtube.com/watch?v=0R3PnJEisqk
==============================================
给出了第一种 reward function 设计,该种设计为复杂设计:
第二种设计,简单设计的 reward function:
本博客是博主个人学习时的一些记录,不保证是为原创,个别文章加入了转载的源地址,还有个别文章是汇总网上多份资料所成,在这之中也必有疏漏未加标注处,如有侵权请与博主联系。
如果未特殊标注则为原创,遵循 CC 4.0 BY-SA 版权协议。
标签:
杂谈
posted on 2023-06-27 16:31 Angry_Panda 阅读(201) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
2022-06-27 Python语言中当前工作目录(Current Working Directory, cwd)与模块搜索第一路径都是指什么???
2022-06-27 在vscode中通过修改launch.json文件为项目添加启动参数——在launch.json文件中修改args变量
2021-06-27 强化学习baseline论文—— rainbow算法中给出实验结果的54个atari2600游戏名称列表
2021-06-27 UBUNTU18.04 SERVER 多显卡 服务器,为防止显卡计算任务出现不意外报错,设置显卡工作状态为:设定持久模式
2021-06-27 【转载】 Tensorboard:PermissionError: [Errno 13] Permission denied: ‘/tmp/.tensorboard-info/pid-46614.info‘
2021-06-27 服务器上运行 xvbf 时报错 —— Unknown encoder 'libx264'