2022 年 8月 9 日随笔档案 - 行者AI

2022年8月9日

从TRPO到PPO（理论分析与数学证明）

摘要：

一篇关于强化学习算法的理论推导，或许可以帮助你理解PPO算法背后的原理，从而找到改进PPO算法的灵感... 阅读全文

posted @ 2022-08-09 13:34 行者AI 阅读(1829) 评论(0) 推荐(0) 编辑

公告

昵称：行者AI
园龄： 4年3个月
粉丝： 13
关注： 0

+加关注

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案

阅读排行榜

评论排行榜

最新评论

1. Re:详解近端策略优化(ppo，干货满满)
写的很棒，太清晰了
--kun1224
2. Re:音频特征提取方法和工具汇总
参考资料的链接很棒！
--forNow
3. Re:Python协程 & 异步编程(asyncio) 入门介绍
请问楼主有关于异步编程的资料或书籍推荐吗？网上找的一些博客方法都已经过时或者无法用在python3.7等高版本上了
--RE_ABANDON
4. Re:关于安卓设备声音远程传输的解决方案
请问如果在网页端播放，是要使用vlc的网页插件吗？
--诡异的鱼
5. Re:ClickHouse集群方案测评
您好，clickhouse 分布式表的多表联合查询的sql语句能不能发一个实例参考一下呢
--sfsfsfsdsfs

行者AI

为游戏插上人工智能的翅膀

公告

搜索

常用链接

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论