随笔档案「2025年4月」 - penuel

强化学习理论-第10课-Actor-Critic方法

摘要：1.The simplest Actor-Critic(QAC) 2. Advantage actor-critic(A2C) 3. Off-policy actor-critic 4. Deterministic actor-critic(DPG) 阅读全文

posted @ 2025-04-10 16:56 penuel 阅读(57) 评论(0) 推荐(0)

强化学习理论-第9课-策略梯度方法

摘要：1. Basic idea of policy gradient 之前的策略都是用表格表示的，现在改成函数的形式描述策略 2. Metric 1 - Average value 3. Metric 2 - Average reward 4. Gradients of the metrics 5. G 阅读全文

posted @ 2025-04-10 11:08 penuel 阅读(51) 评论(0) 推荐(0)

强化学习理论-第8课-值函数近似

摘要：当state space太大的时候，需要用一个函数来对state value 或action value进行近似，方便处理 1. Algorithm for state value estimation 1.1 Objective function 这里\(d_{\pi}\)是权重，可以决定哪个st 阅读全文

posted @ 2025-04-01 11:45 penuel 阅读(73) 评论(0) 推荐(0)

penuel

04 2025 档案

公告