伊犁纯流莱

摘要： CS236深度生成模型 Lec8的刷课总结/刷课笔记，内容是normalizing flow 流模型。阅读全文

posted @ 2025-02-24 21:20 伊犁纯流莱阅读(411) 评论(1) 推荐(1)

摘要：介绍了两篇世界模型的文章 World Models (2018) 和 Learning Latent Dynamics for Planning from Pixels (2019)，主要侧重点是世界模型在决策和规划中的应用。阅读全文

posted @ 2025-01-14 14:38 伊犁纯流莱阅读(1733) 评论(0) 推荐(4)

摘要：本文给出了使用RNN作为策略网络的AC算法代码示例，并在CartPole环境跑出结果。阅读全文

posted @ 2025-01-08 14:46 伊犁纯流莱阅读(110) 评论(0) 推荐(0)

摘要：

主要介绍了变分推断(VI)、随机梯度变分推断(SGVI/SGVB)、变分自编码器(VAE) 阅读全文

posted @ 2025-01-03 23:09 伊犁纯流莱阅读(1044) 评论(0) 推荐(0)

摘要：讨论了on-policy和off-policy的本质区别。说明了off-policy MC和off-policy TD是如何利用重要性采样的，以及为什么Q-learning不需要进行重要性采样。阅读全文

posted @ 2024-12-29 20:35 伊犁纯流莱阅读(184) 评论(0) 推荐(0)

摘要：

介绍变量消去和信念传播两种精确推断方法，其中信念传播中又分别介绍了sum-product和max-product. 阅读全文

posted @ 2024-12-21 14:46 伊犁纯流莱阅读(358) 评论(0) 推荐(0)