06 2020 档案

摘要:基于神经网络方法求解RL 项目地址:https://gitee.com/paddlepaddle/PARL/tree/develop/examples/tutorials/lesson3/dqn 1.函数逼近与神经网络 Lesson2中所述Sarsa、Q-learning均建立在Q表格的基础上,实际 阅读全文
posted @ 2020-06-29 23:03 biiigwang 阅读(402) 评论(0) 推荐(0) 编辑
摘要:基于表格法求解RL 中相关概念 含义 S state 状态(observe) A action 动作 R reward 奖励 P probability 状态转移概率 MDP Markov Decision Processes 马尔科夫决策过程(强化学习的基本框架) TD Temporal Diff 阅读全文
posted @ 2020-06-26 21:03 biiigwang 阅读(275) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示