2022 年 2月 24 日随笔档案 - 行者AI

2022年2月24日

摘要：

本文首发于行者AI 引言上一篇文章我们详细介绍了策略梯度算法(PG)，ppo其实就是策略梯度的一种变形。首先介绍一下同策略（on-policy）与异策略(off-policy)的区别。在强化学习里面，我们需要学习的其实就是一个智能体。如果要学习的智能体跟和环境互动的智能体是同一个的话，称之为同策阅读全文

posted @ 2022-02-24 14:42 行者AI 阅读(12419) 评论(1) 推荐(2) 编辑

公告

昵称：行者AI
园龄： 4年3个月
粉丝： 13
关注： 0

+加关注

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

行者AI

为游戏插上人工智能的翅膀

公告

搜索

常用链接

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论