用于决策的世界模型 -- 论文 World Models (2018) & PlaNet (2019) 讲解
摘要:
介绍了两篇世界模型的文章 World Models (2018) 和 Learning Latent Dynamics for Planning from Pixels (2019),主要侧重点是世界模型在决策和规划中的应用。
变分推断(VI)、随机梯度变分推断(SGVI/SGVB)、变分自编码器(VAE)串讲
摘要:
主要介绍了变分推断(VI)、随机梯度变分推断(SGVI/SGVB)、变分自编码器(VAE)

RL中on-policy和off-policy的本质区别/重要性采样
摘要:
讨论了on-policy和off-policy的本质区别。说明了off-policy MC和off-policy TD是如何利用重要性采样的,以及为什么Q-learning不需要进行重要性采样。
概率图模型&机器学习 -- 精确推断方法 -- 变量消去(Variable Elimination)和信念传播(Belief Propagation)
摘要:
介绍变量消去和信念传播两种精确推断方法,其中信念传播中又分别介绍了sum-product和max-product.
