摘要: 评估 估计/预测一个给定策略的奖励期望。 在强化学习中,我们可以脱离策略实现对它的评估。这意味着我们可以使用从其他策略收集到的数据来... 阅读全文
posted @ 2019-09-28 20:16 从流域到海域 阅读(53) 评论(0) 推荐(0) 编辑
摘要: Recall: Markov Property information state: sufficient statistic of... 阅读全文
posted @ 2019-09-28 20:15 从流域到海域 阅读(68) 评论(0) 推荐(0) 编辑
摘要: 剑指Offer系列是一本国内互联网公司计算机、软件、测试、运维等方向招聘笔试及面试经常会考的编程题合集,一共67道题,其中部分题... 阅读全文
posted @ 2019-09-28 20:11 从流域到海域 阅读(90) 评论(0) 推荐(0) 编辑