04 2025 档案
摘要:1.The simplest Actor-Critic(QAC) 2. Advantage actor-critic(A2C) 3. Off-policy actor-critic 4. Deterministic actor-critic(DPG)
阅读全文
摘要:1. Basic idea of policy gradient 之前的策略都是用表格表示的,现在改成函数的形式描述策略 2. Metric 1 - Average value 3. Metric 2 - Average reward 4. Gradients of the metrics 5. G
阅读全文
摘要:当state space太大的时候,需要用一个函数来对state value 或action value进行近似,方便处理 1. Algorithm for state value estimation 1.1 Objective function 这里\(d_{\pi}\)是权重,可以决定哪个st
阅读全文

浙公网安备 33010602011771号