摘要: 1. Reinforcement Learning R L有两种策略,一种是基于Policy,另一种基于value; Reinforcement Learning的两种策略的主要目的都是找到学习到一个最优策略函数\(\pi\),该函数会最大化目标奖励;找到最优策略函数有两种主要方法:一是直接通过交给 阅读全文
posted @ 2020-12-17 22:51 Chasssser 阅读(170) 评论(0) 推荐(0) 编辑