01 2021 档案

摘要:【导语】:在深度强化学习第四篇中,讲了Policy Gradient的理论。通过最终推导得到的公式,本文用PyTorch简单实现以下,并且尽可能搞清楚torch.distribution的使用方法。代码参考了LeeDeepRl-Notes中的实现。 1. 复习 \[ \theta \leftarro 阅读全文
posted @ 2021-01-16 10:09 pprp 阅读(2695) 评论(0) 推荐(0) 编辑
摘要:翻译:http://colah.github.io/notes/taste/ 科研敏感性就是在你众多研究方向上,找到具有研究价值的、可行性高的研究方向。如果盲目尝试各个研究方向,每个方向上的想法可能会耗费几个月时间才能得到反馈,即是否有价值、可行性如何等信息。 不推荐你情执取研究一些你觉得并不有趣的 阅读全文
posted @ 2021-01-12 08:16 pprp 阅读(322) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示