随笔档案「2018年5月14日」：cs231n---强化学习 ... - coldyan

2018年5月14日

摘要：介绍了基于价值函数和基于策略梯度的两种强化学习框架，并介绍了四种强化学习算法：Q-learning，DQN，REINFORCE，Actot-Critic 1 强化学习问题建模上图中，智能体agent处于状态st下，执行动作at后，会由于周围环境的作用进入下一个状态st+1，同时获得奖励rt。马尔阅读全文

posted @ 2018-05-14 00:50 coldyan 阅读(1832) 评论(0) 推荐(0)

coldyan

公告