摘要: 1:常用训练参数模块 time_horizon: (default = 64) 这个参数决定了在多少步数之后,开始把收集到的经验数据放入到经验池(experience buffer)。这个量同样也决定了使用多少步后的采样来对当前动作的预期奖励进行训练。简单来说,这个值如果越大,就相当于你更接近于一局 阅读全文
posted @ 2024-09-05 11:46 porter_代码工作者 阅读(50) 评论(0) 推荐(0) 编辑