摘要:
Monte Carlo Tree Search 为什么要学习MCTS一部分原因是过去12年AI最大的成就莫过于Alpha Go,一个... 阅读全文
摘要:
这篇博文中的Imitation learning关注于和强化学习的结合,但imitation learning自身其实是一个独立... 阅读全文
摘要:
Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经... 阅读全文
摘要:
前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL。这篇... 阅读全文
摘要:
这算是一篇综述性文章,讲的不深,但是可以了解做planning都有哪些方法。这篇文章里全部使用了Q的说法,因为实现上可能是网络D... 阅读全文
摘要:
前面的一篇博客:Model-free control:如何从经验中学习一个好的策略 到目前为止,我们都假设了可以将价值函数或stat... 阅读全文
摘要:
这篇博文是Model-Free Control的一部分,事实上SARSA和Q-learning with ϵ-greedy Ex... 阅读全文
摘要:
ϵ \epsilon ... 阅读全文
摘要:
Control(making decisions) without a model of how the world works... 阅读全文
摘要:
Importance Sampling(重要性采样),也是常用估计函数价值在某个概率分布下的期望的一个方法。这篇博文先简要介绍I... 阅读全文