摘要:
评估 估计/预测一个给定策略的奖励期望。 在强化学习中,我们可以脱离策略实现对它的评估。这意味着我们可以使用从其他策略收集到的数据来... 阅读全文
摘要:
Recall: Markov Property information state: sufficient statistic of... 阅读全文
摘要:
剑指Offer系列是一本国内互联网公司计算机、软件、测试、运维等方向招聘笔试及面试经常会考的编程题合集,一共67道题,其中部分题... 阅读全文