deep Q learning小笔记

1.loss 是什么

Q-Table的更新问题变成一个函数拟合问题，相近的状态得到相近的输出动作。如下式，通过更新参数 $θ$

$θ$

DRL是将深度学习（DL）与强化学习（RL）结合，直接从高维原始数据学习控制策略。而DQN是DRL的其中一种算法，它要做的就是将卷积神经网络（CNN）和Q-Learning结合起来，CNN的输入是原始图像数据（作为状态State），输出则是每个动作Action对应的价值评估Value Function（Q值）。

posted @ 2018-03-07 16:28 cathy_mu 阅读(243) 评论(0) 收藏举报

刷新页面返回顶部

cathy_mu

deep Q learning小笔记

公告