2021 年 9月 26 日随笔档案 - SilentSamsara

随笔- 36 文章- 0 评论- 24 阅读- 8050

2021年9月26日

学习日志-2021.09.25

摘要：学习日志-2021.09.25 今日进展（笔记） Q-learning（基于值的算法）使用了时间差分法（融合了蒙特卡洛和动态规划）能够进行off-policy的学习算法描述: 初始化 Q = {} while Q 未收敛: 初始化状态S，开始新一轮的游戏 while S!=结束: 使用策略

π

阅读全文

posted @ 2021-09-26 02:24 SilentSamsara 阅读(50) 评论(2) 推荐(0) 编辑

昵称： SilentSamsara
园龄： 5年6个月
粉丝： 15
关注： 6

+加关注

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

阅读排行榜

最新评论

1. Re:红米AC2100：钛星人固件，用ttl刷回breed
@80后穷小子 Windows的Microsoft Store可以下载...
--SilentSamsara
2. Re:红米AC2100：钛星人固件，用ttl刷回breed
串口调试助手在哪下载
--80后穷小子
3. Re:学习日志-2021.10.25
非常好，实验的结果符合预期效果，辛苦了。后面要考虑将实验环境部署到服务器，要不然实验一中断，下次又得重新开始。
--sinceway
4. Re:学习日志-2021.10.24
@sinceway 修改好了，图片里面的没有错，是我博客写错了...
--SilentSamsara
5. Re:学习日志-2021.10.24
博客的两个小问题：
1.第一张图的小标注里两个DS值写错了，应该是0.2和0.4；
2.在不同智能体比例，相同困境强度下的演化后面：“跟据”应为：“根据”。
--sinceway

我的标签

阅读排行榜

最新评论