随笔- 36 文章- 0 评论- 24 阅读- 8050

学习日志-2021.10.13

学习日志-2021.10.13

记录一下项目

参考之前运行的项目，将算法运用到这个游戏中。

项目描述
- 红色代表小鸟
- 黑色方块组成柱子
- 状态表示：以柱子缺口底部右侧的黑色方块为坐标原点，与当前小鸟坐标的差值 $(Δ x, Δ y)$ 表示一个状态。
- 行为
  - 飞一下：小鸟向上移动一格
  - 什么也不做：往下掉一格
- 奖励设置
  - 小鸟存活一帧奖励为1，通过一根柱子奖励为10
  - 小鸟撞到柱子上奖励为-100
- Q表更新算法：Q-learning、Sarsa
效果（Sarsa）
- 迭代1000轮
- 迭代2000轮
- 迭代5000轮
结论
- 随着迭代次数的提升，小鸟在一轮游戏中的存活时间会越来越久；
- 在这种简单的游戏中Q-learning的效果会比Sarsa好一些，Sarsa算法可能比较适用于作为复杂环境下的强化学习迭代方式。

posted @ 2021-10-13 23:06 SilentSamsara 阅读(38) 评论(1) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！
· Ollama——大语言模型本地部署的极速利器
· [AI/GPT/综述] AI Agent的设计模式综述

昵称： SilentSamsara
园龄： 5年6个月
粉丝： 15
关注： 6

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

阅读排行榜

最新评论

1. Re:红米AC2100：钛星人固件，用ttl刷回breed
@80后穷小子 Windows的Microsoft Store可以下载...
--SilentSamsara
2. Re:红米AC2100：钛星人固件，用ttl刷回breed
串口调试助手在哪下载
--80后穷小子
3. Re:学习日志-2021.10.25
非常好，实验的结果符合预期效果，辛苦了。后面要考虑将实验环境部署到服务器，要不然实验一中断，下次又得重新开始。
--sinceway
4. Re:学习日志-2021.10.24
@sinceway 修改好了，图片里面的没有错，是我博客写错了...
--SilentSamsara
5. Re:学习日志-2021.10.24
博客的两个小问题：
1.第一张图的小标注里两个DS值写错了，应该是0.2和0.4；
2.在不同智能体比例，相同困境强度下的演化后面：“跟据”应为：“根据”。
--sinceway