10 2022 档案

强化学习-A3C算法

摘要：A3C：异步优势演员-评论员算法（Asynchronous Advantage Actor-Critic） 2016年Google的DeepMind团队提出的基于异步梯度的深度强化学习算法。强化学习重要符号释义（理解了这些才能慢慢搞懂，，，妈妈太难了~）阅读全文

posted @ 2022-10-20 20:46 今夜无风阅读(139) 评论(0) 推荐(0) 编辑

强化学习-笔记

摘要：import gym from gym import envs env_specs = envs.registry.all() # 查看库中都注册了哪些环境 # for e in env_specs: # print(e) env = gym.make("CartPole-v1") # 取出环境平衡阅读全文

posted @ 2022-10-18 18:20 今夜无风阅读(106) 评论(0) 推荐(0) 编辑

10 2022 档案

公告