随笔分类 - 🍅 人工智能
RL 基础 | 如何使用 OpenAI Gym 接口,搭建自定义 RL 环境(详细版)
摘要:需实现 env.__init__() , obs = env.reset() , obs, reward, done, info = env.step(action) 函数。
RL 基础 | Policy Gradient 的推导
摘要:如果想最大化期望下的 R(τ),那么策略梯度 = R(τ) · Σ ▽log π(a|s) ,即 discounted return × Σ 梯度 log [选取该 action 的概率] 。
RL 基础 | Policy Iteration 的收敛性证明
摘要:1. Policy Evaluation 会收敛,因为贝尔曼算子是压缩映射;2. Policy Improvement 有策略性能改进的保证。
RL 基础 | Value Iteration 的收敛性证明
摘要:贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射,因此 {V, BV, B²V, ...} 是柯西序列,会收敛到 V=BV 的不动点。
RL 基础 | 如何搭建自定义 gym 环境
摘要:主要就是 __init__, step, reset 三个方法,① __init__ 要记得定义 state action space,② step 返回 (obs, reward, done, info),③ reset 返回 obs。返回的 obs 要用 np.ndarray 表示。