强化学习:如何计算被环境系统截断的terminated state的value值:Bootstrap returns from value estimates if episode is terminated by timeout
Bootstrap returns from value estimates if episode is terminated by timeout. More info here: https://github.com/Denys88/rl_games/issues/128
本博客是博主个人学习时的一些记录,不保证是为原创,个别文章加入了转载的源地址,还有个别文章是汇总网上多份资料所成,在这之中也必有疏漏未加标注处,如有侵权请与博主联系。
如果未特殊标注则为原创,遵循 CC 4.0 BY-SA 版权协议。
posted on 2024-08-26 14:30 Angry_Panda 阅读(6) 评论(0) 编辑 收藏 举报