随笔分类 - 🍇 THUDA · PhD 笔记
RL 基础 | Policy Gradient 的推导
摘要:如果想最大化期望下的 R(τ),那么策略梯度 = R(τ) · Σ ▽log π(a|s) ,即 discounted return × Σ 梯度 log [选取该 action 的概率] 。
“嵌套分区法,是一种良策;将海洋分成块,每块都探测。”
摘要:为了帮助你更好地理解 Nested Partition 算法,我为你生成了一首诗,用比喻的方式描述了这种算法的过程。希望这对你有所帮助。😊
凸优化 | Lagrange 对偶:极大极小不等式的证明
摘要:sup inf ≤ inf sup,证明关键: inf_w f(w,z) 是 f(w0,z) 逐点下界,对于任意 w0。
RL 基础 | Policy Iteration 的收敛性证明
摘要:1. Policy Evaluation 会收敛,因为贝尔曼算子是压缩映射;2. Policy Improvement 有策略性能改进的保证。
线性代数 · 矩阵 · Matlab | Cholesky 分解代码实现
摘要:Cholesky 分解是 LU 分解(三角分解)的特殊形式,n 阶实对称正定矩阵 A = LL^T,其中 L 为下三角;搬运外网的代码,非原创。
RL 基础 | Value Iteration 的收敛性证明
摘要:贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射,因此 {V, BV, B²V, ...} 是柯西序列,会收敛到 V=BV 的不动点。