摘要: 1 概述 在该系列上一篇中介绍的基于价值的深度强化学习方法有它自身的缺点,主要有以下三点: 1)基于价值的强化学习无法很好的处理连续空间的动作问题,或者时高维度的离散动作空间,因为通过价值更新策略时是需要对每个动作下的价值函数的大小进行比较的,因此在高维或连续的动作空间下是很难处理的。 2)在基于价 阅读全文
posted @ 2019-02-20 16:23 微笑sun 阅读(5139) 评论(0) 推荐(1) 编辑