2021 年 12月 5 日随笔档案 - 埠默笙声声声脉

2021年12月5日

摘要：新手的第一个强化学习示例一般都从Open Gym开始。在这些示例中，我们不断地向环境施加动作，并得到观测和奖励，这也是Gym Env的基本用法： state, reward, done, info = env.step(action) 其中state是agent的观测状态，reward是采取了act 阅读全文

posted @ 2021-12-05 11:48 埠默笙声声声脉阅读(7530) 评论(0) 推荐(1) 编辑

公告