2019 年 2月 14 日随笔档案 - hyc339408769

2019年2月14日

摘要： 1. 前言在 "强化学习 MDP(马尔可夫决策过程)算法原理" 中我们已经介绍了强化学习中的基石 MDP，本文的任务是介绍如何通过价值函数，去寻找到最优策略，使得最后得到的奖励尽可能的多。 2. 回顾MDP 通过学习MDP我们得到了2个Bellman公式：状态值函数： $$ v_{\pi}(s_ 阅读全文

posted @ 2019-02-14 22:49 hyc339408769 阅读(5324) 评论(0) 推荐(1) 编辑

人工智站

公告