摘要: 有限马尔可夫MDP是序列决策的经典形式化表达,其动作不仅影响当前的即时收益,还影响后续的状态,以及未来的收益。【即时收益和延迟收益之间权衡的需求】 3.1 智能体 环境 交互接口 智能体【agent】:进行学习及实施决策的机器 环境【environment】:智能体之外所有能与其相互作用的实物 通过 阅读全文
posted @ 2019-11-06 13:56 benda 阅读(616) 评论(0) 推荐(0) 编辑