AI-强化学习 - 文章分类 - AlphaGeek

强化学习的REINFORCE方法中，如何理解逆序确保每个时间步 𝑡 的 𝐺 𝑡 只包含 𝑡 之后的回报，符合 REINFORCE 的理论要求？

摘要：Q 具体而言，也就是：为什么正序遍历会导致使用 0 到 𝑇 的数据，而逆序遍历能正确实现 𝑡 到 𝑇 的数据。这涉及到 REINFORCE 算法中累计收益 𝐺 𝑡 的计算逻辑以及循环遍历的顺序对结果的影响。阅读全文

posted @ 2025-05-03 13:56 AlphaGeek 阅读(24) 评论(0) 推荐(0)

强化学习的Actor-Critic算法中，为什么 Actor 的更新结果没有明显带入 Critic 的下一步计算，以及如何理解这种协作关系？

摘要：在 Algorithm 10.1（QAC，Q Actor-Critic 算法）中，Actor 和 Critic 的更新看似独立，但实际上它们是相互协作的，尽管这种协作并不直接体现在公式中。我们来详细分析这个问题，解释为什么 Actor 的更新结果没有明显带入 Critic 的下一步计算，以及如何理阅读全文

posted @ 2025-04-20 12:57 AlphaGeek 阅读(82) 评论(0) 推荐(0)

强化学习中，如何证明：无论初始状态分布是什么，长期平均奖励最终会等于一个固定的值 𝑟 ˉ 𝜋 ，而且可以用状态分布 𝑑 ( 𝑠 ) 和 𝑟 ˉ 𝜋 ( 𝑠 ) r ˉ 来表示。

摘要：原证明过程如下，如何理解：通俗易懂的证明过程如下：阅读全文

posted @ 2025-04-19 14:28 AlphaGeek 阅读(15) 评论(0) 推荐(0)

强化学习中，关于SGD收敛性证明的细节理解。

摘要：截图如下，如何理解红框部分的内容？首先 curvature: 是曲率的含义。参考大模型，解答如下：追问：为什么一阶导数是向量、二阶导数就是矩阵？另外矩阵的正定性、半正定这些概念应该如何理解？【截图如下】解答：阅读全文

posted @ 2025-04-15 16:42 AlphaGeek 阅读(33) 评论(0) 推荐(0)

强化学习中，ε-greedy policy的动作概率公式细节理解。

摘要：比如为什么如下红框内的内容，乍一看加起来概率不等于一？ 1. epsilonϵ-greedy 策略的概率公式阅读全文

posted @ 2025-04-14 15:00 AlphaGeek 阅读(133) 评论(0) 推荐(0)

强化学习中，蒙特卡洛方法（Monte Carlo, MC）中有两种策略是用来估计状态-动作对（state-action pair）价值的，“initial visit”和“every-visit”这两种策略的详解

摘要：“initial visit”和“every-visit”这两种策略。这两种策略是蒙特卡洛方法（Monte Carlo, MC）中用来估计状态-动作对（state-action pair）价值的不同方式，主要用于强化学习中。 1. 概念解释 Initial Visit（首次访问策略）定义：在一条阅读全文

posted @ 2025-04-14 13:50 AlphaGeek 阅读(172) 评论(0) 推荐(0)

如何理解强化学习中policy iteration的算法里面参数 j, Π？

摘要：见下图：这两个上下标分别有何区别？简单的说，就是一个是外循环，一个是内循环。阅读全文

posted @ 2025-04-13 12:03 AlphaGeek 阅读(23) 评论(0) 推荐(0)

强化学习中，贝尔曼公式的推导细节：难点详解。

摘要：1、如何理解：即使状态s和动作a固定，奖励r也可能是随机的？ 2、如何理解贝尔曼公式里面的三个概率？阅读全文

posted @ 2025-04-09 17:11 AlphaGeek 阅读(23) 评论(0) 推荐(0)

强化学习中，自举BootStrapping的概念理解

摘要：详见下图：阅读全文

posted @ 2025-04-09 15:38 AlphaGeek 阅读(73) 评论(0) 推荐(0)

如何理解关于 SARSA 算法中学习率（learning rate） 𝛼 𝑡 ( 𝑠 , 𝑎 ) 的要求？

摘要：1、也就是如何理解Sarsa算法中如下这个约束条件。 2、强化学习中，核心关键名词的理解。例如episode 和圆周率 π 3、策略和Action我还有点混淆，策略是一个概率分布，比如在迷宫游戏中，指导说下一步该超哪个方向走。但Action不是也是下一步往哪个方向走吗，这两个不就概念重复了么？ 4 阅读全文

posted @ 2025-04-07 10:45 AlphaGeek 阅读(91) 评论(0) 推荐(0)

Running water never grows stale. So you just have to keep on flowing.

世上无难事，只要肯攀登。

文章分类 - AI-人工智能系列 / AI-强化学习

公告