强化学习(九):策略梯度
Vpegasus 2018-08-13 00:10
阅读:2737
评论:0
推荐:0
编辑
随笔- 59
文章- 0
评论- 17
阅读-
18万
当前标签:决策过程
强化学习(八):Eligibility Trace
Vpegasus 2018-08-13 00:09
阅读:1369
评论:0
推荐:0
编辑
强化学习(七):计划与学习的关系
Vpegasus 2018-08-13 00:06
阅读:1318
评论:0
推荐:0
编辑
强化学习(六):n-step Bootstrapping
Vpegasus 2018-08-13 00:02
阅读:936
评论:0
推荐:0
编辑
强化学习(五):时间差分学习
Vpegasus 2018-08-12 23:58
阅读:1117
评论:0
推荐:0
编辑
强化学习(四):蒙特卡洛方法
Vpegasus 2018-08-12 23:56
阅读:826
评论:0
推荐:0
编辑
强化学习(三):动态规划
Vpegasus 2018-08-12 23:52
阅读:418
评论:0
推荐:0
编辑
强化学习(二):马尔可夫决策过程
Vpegasus 2018-08-12 23:48
阅读:870
评论:0
推荐:0
编辑