摘要: 1、简介 1.1、为什么有值函数近似 状态空间太大,基于DP/MC/TD的方法的离散值太多,存储量太大,运行太慢 1.2、值函数近似有两种方法 一个是状态值函数方法;一个是状态动作值方法 1.3、值函数近似的三种类型 类型1:输入状态S,输出v 类型2:输入状态S,action a,输出Q(s,a, 阅读全文