10 2022 档案
摘要:A3C:异步优势演员-评论员算法(Asynchronous Advantage Actor-Critic) 2016年Google的DeepMind团队提出的基于异步梯度的深度强化学习算法。 强化学习重要符号释义(理解了这些才能慢慢搞懂,,,妈妈太难了~)
阅读全文
摘要:import gym from gym import envs env_specs = envs.registry.all() # 查看库中都注册了哪些环境 # for e in env_specs: # print(e) env = gym.make("CartPole-v1") # 取出环境平衡
阅读全文