2019 年 11月 6 日随笔档案 - benda

2019年11月6日

摘要：有限马尔可夫MDP是序列决策的经典形式化表达，其动作不仅影响当前的即时收益，还影响后续的状态，以及未来的收益。【即时收益和延迟收益之间权衡的需求】 3.1 智能体环境交互接口智能体【agent】:进行学习及实施决策的机器环境【environment】:智能体之外所有能与其相互作用的实物通过阅读全文

posted @ 2019-11-06 13:56 benda 阅读(616) 评论(0) 推荐(0) 编辑

benda

公告