会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
白婷的博客
知乎: https://www.zhihu.com/people/bai-bai-87-80-88
博客园
首页
新随笔
联系
订阅
管理
2018年12月5日
强化学习概览
摘要: RL分类: value based, policy based, actor critic. 一、value based. Q-learning Q表示的是,在状态s下采取动作a能够获得的期望最大收益,R是立即获得的收益,而未来一期的收益则取决于下一阶段的动作。 更新公式 Q(S,A) ← (1-α
阅读全文
posted @ 2018-12-05 11:09 白婷
阅读(408)
评论(0)
推荐(0)
编辑
公告