2024 年 3月 4 日随笔档案 - SkyRainWind - 博客园

2024年3月4日

李宏毅《机器学习》总结 - Q-learning（待填）

摘要：之前提到过，强化学习中有 policy gradient 的方法，其实质是利用 MC 的方法对于当前的模型（

θ

$\theta$ 或者

π

$\pi$ ，可以认为是由状态到行为的映射）重复跑很多次，求出估计的“期望值”，最终目标是最大化他们的 reward（因此可以将 loss 设置成负的期望）。这阅读全文

posted @ 2024-03-04 22:06 SkyRainWind 阅读(35) 评论(0) 推荐(0) 编辑

公告

We always keep minority spirit.

昵称： SkyRainWind
园龄： 8年1个月
粉丝： 8
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

阅读排行榜