从流域到海域

摘要： Monte Carlo Tree Search 为什么要学习MCTS一部分原因是过去12年AI最大的成就莫过于Alpha Go，一个... 阅读全文

posted @ 2019-11-23 21:56 从流域到海域阅读(132) 评论(0) 推荐(0) 编辑

摘要：这篇博文中的Imitation learning关注于和强化学习的结合，但imitation learning自身其实是一个独立... 阅读全文

posted @ 2019-11-19 21:33 从流域到海域阅读(124) 评论(0) 推荐(0) 编辑

摘要： Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经... 阅读全文

posted @ 2019-11-16 17:20 从流域到海域阅读(244) 评论(0) 推荐(0) 编辑

摘要：前面的一篇博文介绍了函数价值近似，是以简单的线性函数来做的，这篇博文介绍使用深度神经网络来做函数近似，也就是Deep RL。这篇... 阅读全文

posted @ 2019-11-09 18:32 从流域到海域阅读(76) 评论(0) 推荐(0) 编辑

摘要：这算是一篇综述性文章，讲的不深，但是可以了解做planning都有哪些方法。这篇文章里全部使用了Q的说法，因为实现上可能是网络D... 阅读全文

posted @ 2019-11-04 15:04 从流域到海域阅读(53) 评论(0) 推荐(0) 编辑

摘要：前面的一篇博客:Model-free control：如何从经验中学习一个好的策略到目前为止，我们都假设了可以将价值函数或stat... 阅读全文

posted @ 2019-10-28 20:59 从流域到海域阅读(92) 评论(0) 推荐(0) 编辑

摘要：这篇博文是Model-Free Control的一部分，事实上SARSA和Q-learning with ϵ-greedy Ex... 阅读全文

posted @ 2019-10-26 22:23 从流域到海域阅读(184) 评论(0) 推荐(0) 编辑

摘要： ϵ \epsilon ... 阅读全文

posted @ 2019-10-25 22:37 从流域到海域阅读(546) 评论(0) 推荐(0) 编辑

摘要： Control(making decisions) without a model of how the world works... 阅读全文

posted @ 2019-10-23 22:16 从流域到海域阅读(113) 评论(0) 推荐(0) 编辑

摘要： Importance Sampling(重要性采样)，也是常用估计函数价值在某个概率分布下的期望的一个方法。这篇博文先简要介绍I... 阅读全文

posted @ 2019-10-22 21:57 从流域到海域阅读(213) 评论(0) 推荐(0) 编辑