上一页 1 2 3 4 5 6 7 8 ··· 31 下一页
摘要: Monte Carlo Tree Search 为什么要学习MCTS一部分原因是过去12年AI最大的成就莫过于Alpha Go,一个... 阅读全文
posted @ 2019-11-23 21:56 从流域到海域 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 这篇博文中的Imitation learning关注于和强化学习的结合,但imitation learning自身其实是一个独立... 阅读全文
posted @ 2019-11-19 21:33 从流域到海域 阅读(120) 评论(0) 推荐(0) 编辑
摘要: Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经... 阅读全文
posted @ 2019-11-16 17:20 从流域到海域 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL。这篇... 阅读全文
posted @ 2019-11-09 18:32 从流域到海域 阅读(72) 评论(0) 推荐(0) 编辑
摘要: 这算是一篇综述性文章,讲的不深,但是可以了解做planning都有哪些方法。这篇文章里全部使用了Q的说法,因为实现上可能是网络D... 阅读全文
posted @ 2019-11-04 15:04 从流域到海域 阅读(50) 评论(0) 推荐(0) 编辑
摘要: 前面的一篇博客:Model-free control:如何从经验中学习一个好的策略 到目前为止,我们都假设了可以将价值函数或stat... 阅读全文
posted @ 2019-10-28 20:59 从流域到海域 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 这篇博文是Model-Free Control的一部分,事实上SARSA和Q-learning with ϵ-greedy Ex... 阅读全文
posted @ 2019-10-26 22:23 从流域到海域 阅读(169) 评论(0) 推荐(0) 编辑
摘要: ϵ \epsilon ... 阅读全文
posted @ 2019-10-25 22:37 从流域到海域 阅读(506) 评论(0) 推荐(0) 编辑
摘要: Control(making decisions) without a model of how the world works... 阅读全文
posted @ 2019-10-23 22:16 从流域到海域 阅读(101) 评论(0) 推荐(0) 编辑
摘要: Importance Sampling(重要性采样),也是常用估计函数价值在某个概率分布下的期望的一个方法。这篇博文先简要介绍I... 阅读全文
posted @ 2019-10-22 21:57 从流域到海域 阅读(183) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 31 下一页