2019 年 10月 11 日随笔档案 - 从流域到海域 - 博客园

2019年10月11日

Compute the Optimal Policy & the Optimal Value 计算最佳策略和计算最佳价值

摘要： MDP Control 在这节内容里我们不讨论如何学习策略，我们仅仅探讨计算最佳策略。计算最佳策略和计算最佳价值都属于MDP ... 阅读全文

posted @ 2019-10-11 17:24 从流域到海域阅读(138) 评论(0) 推荐(0) 编辑