摘要: 强化学习总结 强化学习的故事 强化学习是学习一个最优策略(policy),可以让本体(agent)在特定环境(environment)中,根据当前的状态(state),做出行动(action),从而获得最大回报(G or return)。 有限马尔卡夫决策过程 马尔卡夫决策过程理论定义了一个数学模型 阅读全文
posted @ 2017-03-30 23:34 SNYang 阅读(21227) 评论(6) 推荐(15) 编辑