文章分类 -  AI-人工智能系列 / AI-强化学习

摘要:Q 具体而言,也就是: 为什么正序遍历会导致使用 0 到 𝑇 的数据,而逆序遍历能正确实现 𝑡 到 𝑇 的数据。 这涉及到 REINFORCE 算法中累计收益 𝐺 𝑡 的计算逻辑以及循环遍历的顺序对结果的影响。 阅读全文
posted @ 2025-05-03 13:56 AlphaGeek 阅读(24) 评论(0) 推荐(0)
摘要:在 Algorithm 10.1(QAC,Q Actor-Critic 算法)中,Actor 和 Critic 的更新看似独立,但实际上它们是相互协作的,尽管这种协作并不直接体现在公式中。 我们来详细分析这个问题,解释为什么 Actor 的更新结果没有明显带入 Critic 的下一步计算,以及如何理 阅读全文
posted @ 2025-04-20 12:57 AlphaGeek 阅读(82) 评论(0) 推荐(0)
摘要:截图如下,如何理解红框部分的内容? 首先 curvature: 是曲率的含义。 参考大模型,解答如下: 追问:为什么一阶导数是向量、二阶导数就是矩阵?另外矩阵的正定性、半正定这些概念应该如何理解?【截图如下】 解答: 阅读全文
posted @ 2025-04-15 16:42 AlphaGeek 阅读(33) 评论(0) 推荐(0)
摘要:比如为什么如下红框内的内容,乍一看加起来概率不等于一? 1. epsilonϵ-greedy 策略的概率公式 阅读全文
posted @ 2025-04-14 15:00 AlphaGeek 阅读(133) 评论(0) 推荐(0)
摘要:“initial visit”和“every-visit”这两种策略。 这两种策略是蒙特卡洛方法(Monte Carlo, MC)中用来估计状态-动作对(state-action pair)价值的不同方式,主要用于强化学习中。 1. 概念解释 Initial Visit(首次访问策略) 定义:在一条 阅读全文
posted @ 2025-04-14 13:50 AlphaGeek 阅读(172) 评论(0) 推荐(0)
摘要:见下图: 这两个上下标分别有何区别? 简单的说,就是一个是外循环,一个是内循环。 阅读全文
posted @ 2025-04-13 12:03 AlphaGeek 阅读(23) 评论(0) 推荐(0)
摘要:1、如何理解:即使状态s和动作a固定,奖励r也可能是随机的? 2、如何理解贝尔曼公式里面的三个概率? 阅读全文
posted @ 2025-04-09 17:11 AlphaGeek 阅读(23) 评论(0) 推荐(0)
摘要:详见下图: 阅读全文
posted @ 2025-04-09 15:38 AlphaGeek 阅读(73) 评论(0) 推荐(0)
摘要:1、也就是如何理解Sarsa算法中如下这个约束条件。 2、强化学习中,核心关键名词的理解。例如episode 和 圆周率 π 3、策略和Action我还有点混淆,策略是一个概率分布,比如在迷宫游戏中,指导说下一步该超哪个方向走。但Action不是也是下一步往哪个方向走吗,这两个不就概念重复了么? 4 阅读全文
posted @ 2025-04-07 10:45 AlphaGeek 阅读(91) 评论(0) 推荐(0)