2019 年 9月 16 日随笔档案 - LIN_KID

2019年9月16日

摘要： 1、策略迭代、价值迭代、泛化迭代的前提条件：智能体知道环境的状态转移概率，即是基于模型的问题 2、蒙特卡洛方法采样：随机采样估计期望值，通过样本序列逼近真实的期望值。成立原因：大数定理。 3、探索和利用，探索指的是不拘于当前的表现，选择不同于当前策略的行动；利用是持续使用当前的最优策略，尽可能的获阅读全文

posted @ 2019-09-16 11:23 LIN_KID 阅读(274) 评论(0) 推荐(0) 编辑

LIN_KID

公告