会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
coldyan
博客园
首页
新随笔
联系
订阅
管理
2018年5月14日
cs231n---强化学习
摘要: 介绍了基于价值函数和基于策略梯度的两种强化学习框架,并介绍了四种强化学习算法:Q-learning,DQN,REINFORCE,Actot-Critic 1 强化学习问题建模 上图中,智能体agent处于状态st下,执行动作at后,会由于周围环境的作用进入下一个状态st+1,同时获得奖励rt。 马尔
阅读全文
posted @ 2018-05-14 00:50 coldyan
阅读(1771)
评论(0)
推荐(0)
编辑
公告