2019 年 9月 28 日随笔档案 - 从流域到海域

摘要：评估估计/预测一个给定策略的奖励期望。在强化学习中，我们可以脱离策略实现对它的评估。这意味着我们可以使用从其他策略收集到的数据来... 阅读全文

posted @ 2019-09-28 20:16 从流域到海域阅读(53) 评论(0) 推荐(0) 编辑

摘要： Recall: Markov Property information state: sufficient statistic of... 阅读全文

posted @ 2019-09-28 20:15 从流域到海域阅读(74) 评论(0) 推荐(0) 编辑

摘要：剑指Offer系列是一本国内互联网公司计算机、软件、测试、运维等方向招聘笔试及面试经常会考的编程题合集，一共67道题，其中部分题... 阅读全文

posted @ 2019-09-28 20:11 从流域到海域阅读(95) 评论(0) 推荐(0) 编辑

从流域到海域