Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow
发表时间:2021
文章要点:文章基于TF-Agent库(model free RL)设计了一个model based RL的库,主要包括三个模块,Environment Model,Agent Classes和Experiment Harness。Environment Model是用data学model的模块。Agent Classes包括model based RL的算法,主要增加了planning部分,Decision-Time Planners和Background Planners部分,Decision-Time Planners主要是online planning用来选动作在真实环境里执行的部分,比如random shooting和cross entropy method;Background Planners指的是train的过程中的planning部分,比如model based value expansion等。最后Experiment Harness就是用来封装实验设置的,比如参数配置等等。
总结:还没试过,可以找时间试试好不好用。
疑问:无。