2024 年 3月 14 日随笔档案 - SkyRainWind - 博客园

2024年3月14日

再探强化学习

摘要：主要记录一下自己仔细学习 RL 时的感悟。记录一下防止遗忘 Q-learning 和 DQN 都是基于值函数的（如

V

$V$ 和

Q

$Q$ 函数），而策略梯度（policy gradient）则是基于策略的。后者显式的训练一个策略，对这个策略使用梯度下降等方法。 actor-critic 本质上阅读全文

posted @ 2024-03-14 16:35 SkyRainWind 阅读(48) 评论(1) 推荐(1) 编辑

公告

We always keep minority spirit.

昵称： SkyRainWind
园龄： 8年
粉丝： 8
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

阅读排行榜