06 2020 档案
摘要:基于神经网络方法求解RL 项目地址:https://gitee.com/paddlepaddle/PARL/tree/develop/examples/tutorials/lesson3/dqn 1.函数逼近与神经网络 Lesson2中所述Sarsa、Q-learning均建立在Q表格的基础上,实际
阅读全文
摘要:基于表格法求解RL 中相关概念 含义 S state 状态(observe) A action 动作 R reward 奖励 P probability 状态转移概率 MDP Markov Decision Processes 马尔科夫决策过程(强化学习的基本框架) TD Temporal Diff
阅读全文