摘要:
[toc] "DQN发展历程(一)" "DQN发展历程(二)" "DQN发展历程(三)" "DQN发展历程(四)" "DQN发展历程(五)" 值函数的近似 当状态 动作数目太多时,使用表格存储所有的状态 动作会造成维度灾难,无法求解大规模问题。 可以采用一个函数来近似这个这个表格,输入状态 动作,输 阅读全文
摘要:
[toc] "DQN发展历程(一)" "DQN发展历程(二)" "DQN发展历程(三)" "DQN发展历程(四)" "DQN发展历程(五)" 不基于模型(Model free)的预测 无法事先了解状态转移的概率矩阵 蒙特卡罗方法 从开始状态开始,到终结状态,找到一条完整的状态序列,以求解每个状态的值 阅读全文
摘要:
[toc] "DQN发展历程(一)" "DQN发展历程(二)" "DQN发展历程(三)" "DQN发展历程(四)" "DQN发展历程(五)" 不基于模型的控制 选取动作的方法 贪婪法,每次控制都选择状态值最大的动作,容易局部收敛,找不到全局最优。 引入 epsilon greedy,按 epsilo 阅读全文
摘要:
[toc] "DQN发展历程(一)" "DQN发展历程(二)" "DQN发展历程(三)" "DQN发展历程(四)" "DQN发展历程(五)" 动态规划 动态规划给出了求解强化学习的一种方式 使用条件 使用动态规划需要两个条件 总问题可以分解成一系列相互重叠的子问题 子问题的求解结果被存储下来并且可以 阅读全文
摘要:
[toc] "DQN发展历程(一)" "DQN发展历程(二)" "DQN发展历程(三)" "DQN发展历程(四)" "DQN发展历程(五)" 马尔可夫理论 马尔可夫性质 P[St+1 | St] = P[St+1 | S1,...,St] 给定当前状态 St ,过去的状态可以不用考虑 当前状态 St 阅读全文