会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Chasssser
自律给我自由ε=ε=ε=(~ ̄▽ ̄)~ (๑•ัω•็๑)
首页
新随笔
联系
订阅
管理
2020年12月17日
Reinforcement Learning Basis
摘要: 1. Reinforcement Learning R L有两种策略,一种是基于Policy,另一种基于value; Reinforcement Learning的两种策略的主要目的都是找到学习到一个最优策略函数\(\pi\),该函数会最大化目标奖励;找到最优策略函数有两种主要方法:一是直接通过交给
阅读全文
posted @ 2020-12-17 22:51 Chasssser
阅读(170)
评论(0)
推荐(0)
编辑
公告