摘要: 一般来说,从gym引用环境只需要gym.make就可以了,如:env=gym.make('CartPole-v0')。 实际上,创建环境返回的env是一个经过包装的环境,会对step次数进行限制,比如限定小车保持平衡200步后就会失败。 如果用上gym.make().unwrapped则可以得到原始 阅读全文
posted @ 2022-05-17 22:21 Lumarkov 阅读(217) 评论(0) 推荐(0)
摘要: #Mini Batch ##一、什么是Mini Batch 我们已知在梯度下降中需要对所有样本进行处理过后然后走一步,那么如果我们的样本规模的特别大的话效率就会比较低。假如有 500 万,甚至 5000 万个样本 (在我们的业务场景中,一般有几千万行,有些大数据有 10 亿行) 的话走一轮迭代就会非 阅读全文
posted @ 2022-05-17 16:24 Lumarkov 阅读(565) 评论(0) 推荐(0)
摘要: #一些个有助于优化算法的trick ##把部分可观测马尔可夫问题(POMDPs)转回马尔可夫问题(MDP) 解决方案是保持一些过去的观察结果,并将它们作为一种状态。以雅达利游戏为例,我们通常将k个随后的帧叠加在一起,并使用它们作为对每个状态的观察。这允许我们的代理推断出当前状态的动态,例如,得到球的 阅读全文
posted @ 2022-05-17 16:18 Lumarkov 阅读(48) 评论(0) 推荐(0)