01 2021 档案

【深度强化学习】9. Policy Gradient实现中核心部分torch.distributions

摘要：【导语】：在深度强化学习第四篇中，讲了Policy Gradient的理论。通过最终推导得到的公式，本文用PyTorch简单实现以下，并且尽可能搞清楚torch.distribution的使用方法。代码参考了LeeDeepRl-Notes中的实现。 1. 复习 \[ \theta \leftarro 阅读全文

posted @ 2021-01-16 10:09 pprp 阅读(2951) 评论(0) 推荐(0)

【译】科研敏感性锻炼

摘要：翻译：http://colah.github.io/notes/taste/ 科研敏感性就是在你众多研究方向上，找到具有研究价值的、可行性高的研究方向。如果盲目尝试各个研究方向，每个方向上的想法可能会耗费几个月时间才能得到反馈，即是否有价值、可行性如何等信息。不推荐你情执取研究一些你觉得并不有趣的阅读全文

posted @ 2021-01-12 08:16 pprp 阅读(355) 评论(0) 推荐(0)

pprp

一开始就奔着月亮去，就算失败，也或许能收获一颗星星

01 2021 档案

公告