摘要: 在之前的强化学习文章里,我们讲到了经典的MDP模型来描述强化学习,其解法包括value iteration和policy iteration,这类经典解法基于已知的转移概率矩阵P,而在实际应用中,我们很难具体知道转移概率P。伴随着这类问题的产生,Q-Learning通过迭代来更新Q表拟合实际的转移概 阅读全文
posted @ 2019-03-30 16:04 蓝鲸王子 阅读(1785) 评论(0) 推荐(0) 编辑