摘要: Flappy Bird自主学习程序基本框架 用DQN实现 程序基本框架 程序与模拟器交互 训练过程也就是神经网络(agent)不断与游戏模拟器(Environment)进行交互,通过模拟器获得状态,给出动作,改变模拟器中的状态,获得反馈,依据反馈更新策略的过程。 训练过程 训练过程过程主要分为以下三 阅读全文
posted @ 2021-11-08 21:30 奶酥 阅读(262) 评论(0) 推荐(0) 编辑