摘要: 贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射,因此 {V, BV, B²V, ...} 是柯西序列,会收敛到 V=BV 的不动点。 阅读全文
posted @ 2023-10-24 09:40 MoonOut 阅读(626) 评论(0) 推荐(0) 编辑