2020 年 12月 17 日随笔档案 - Chasssser - 博客园

2020年12月17日

Reinforcement Learning Basis

摘要： 1. Reinforcement Learning R L有两种策略，一种是基于Policy，另一种基于value； Reinforcement Learning的两种策略的主要目的都是找到学习到一个最优策略函数

π

$\pi$ ，该函数会最大化目标奖励；找到最优策略函数有两种主要方法：一是直接通过交给阅读全文

posted @ 2020-12-17 22:51 Chasssser 阅读(173) 评论(0) 推荐(0) 编辑