摘要: 介绍了基于价值函数和基于策略梯度的两种强化学习框架,并介绍了四种强化学习算法:Q-learning,DQN,REINFORCE,Actot-Critic 1 强化学习问题建模 上图中,智能体agent处于状态st下,执行动作at后,会由于周围环境的作用进入下一个状态st+1,同时获得奖励rt。 马尔 阅读全文
posted @ 2018-05-14 00:50 coldyan 阅读(1762) 评论(0) 推荐(0) 编辑