2025 年 3月 1 日随笔档案 - Angry_Panda

2025年3月1日

摘要：使用模仿学习来训练人形机器人。如何获取人类的演示数据呢？直接方式。通过VR或AR的虚拟现实的技术进行远程控制机器人，这样可以获得实时的人类的数据，而且还是人类控制机器人的数据。间接方式。通过人类姿态识别的方式，该种方式效果肯定不如上一种的好，不过其优势就是方便，便宜，不需要复杂且昂贵的机器人远阅读全文

posted @ 2025-03-01 20:47 Angry_Panda 阅读(6) 评论(0) 推荐(0) 编辑

代码实践：面向分布式强化学习的经验回放框架（使用例子Demo）——Reverb: A Framework for Experience Replay

摘要：相关：面向分布式强化学习的经验回放框架（使用例子Demo）——Reverb: A Framework for Experience Replay 阅读全文

posted @ 2025-03-01 19:40 Angry_Panda 阅读(18) 评论(0) 推荐(0) 编辑

深度强化学习中探索《蒙特祖马的复仇》与《陷阱》的突破：Go-Explore 算法

摘要：原地址： https://www.uber.com/blog/go-explore/ 在深度强化学习（RL）领域，攻克 Atari 游戏《蒙特苏马的复仇》和《陷阱》一直是一项重大挑战。这些游戏代表了一大类具有挑战性的现实问题，被称为“难以探索的问题”，在这些问题中，智能体必须在极其稀疏或具有欺骗性的阅读全文

posted @ 2025-03-01 19:39 Angry_Panda 阅读(1) 评论(0) 推荐(0) 编辑

带和不带 Ornstein-Uhlenbeck 过程的深度确定性策略梯度（DDPG）——《Deep Deterministic Policy Gradient (DDPG) with and without Ornstein-Uhlenbeck Process》

摘要：相关： https://soeren-kirchner.medium.com/deep-deterministic-policy-gradient-ddpg-with-and-without-ornstein-uhlenbeck-process-e6d272adfc3 Replacing the O 阅读全文

posted @ 2025-03-01 14:52 Angry_Panda 阅读(9) 评论(0) 推荐(0) 编辑

强化学习说法DDPG中的Ornstein-Uhlenbeck随机过程 —— How does the Ornstein-Uhlenbeck process work, and how it is used in DDPG?

摘要：相关： https://ai.stackexchange.com/questions/23180/how-does-the-ornstein-uhlenbeck-process-work-and-how-it-is-used-in-ddpg It should be noted that more 阅读全文

posted @ 2025-03-01 13:56 Angry_Panda 阅读(6) 评论(0) 推荐(0) 编辑

Ornstein-Uhlenbeck过程维基百科 —— 翻译

摘要：原地址： https://en.wikipedia.org/wiki/Ornstein–Uhlenbeck_process Ornstein-Uhlenbeck过程在数学中，Ornstein-Uhlenbeck过程（以Leonard Ornstein和George Eugene Uhlenbeck 阅读全文

posted @ 2025-03-01 12:58 Angry_Panda 阅读(6) 评论(0) 推荐(0) 编辑

Angry Panda

公告

导航

统计

搜索

常用链接

我的标签

积分与排名

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论