摘要: 1、介绍 这课中的规划就是预测 1.1、Model-Based的两层含义 agent学习环境从一个状态向另一个状态的转移 agent学习状态转移收益 ps: model的学习主体是agent 1.2、利弊 利: 通过监督学习高效学习; 解释model的不确定原因 弊: 学习模型+构造值函数, 叠加两 阅读全文