随笔档案「2021年1月29日」：演员-评论员法(Actor-Critic) ... - MayeZhang

2021年1月29日

摘要：演员-评论员算法( Actor-Critic Algorithm)是一种结合策略梯度和时序差分学习的强化学习方法。其中演员(Actor)是指策略函数 $\pi _\theta\left( {a|s} \right)$，即学习一个策略来得到尽量高的回报。评论员(Critic)是指值函数 \({V_ 阅读全文

posted @ 2021-01-29 09:34 MayeZhang 阅读(1623) 评论(0) 推荐(0)

策略梯度(Policy Gradient)

摘要：对于DQN来说使用一个网络直接逼近了值函数，最后取得了非常不错的效果, 但是对于一些连续性控制或者动作空间特别大的环境来说，很难全部计算所有的值函数来得到最好的策略，那么直接计算策略的方法就别提出来了。 1 策略梯度理论在Value Based的方法中，我们迭代计算的是值函数，然后根据值函数对策略阅读全文

posted @ 2021-01-29 09:31 MayeZhang 阅读(1913) 评论(0) 推荐(0)

无约束优化问题

摘要：线性搜索下降算法 Step 0：给定初始点$x^0$，$k=0$； Step 1：判断$x^k$是否满足终止条件，满足则终止； Step 2：寻找$xk$处的下降方向$dk$； Step 3：选择合适的步长$\alphak>0$，使得$f(xk+\alpha_k dk)<f(xk)$； Step 阅读全文

posted @ 2021-01-29 09:11 MayeZhang 阅读(324) 评论(0) 推荐(0)

有约束优化问题

摘要：对于一般形式约束优化问题： \[ \begin{array}{cl} \min & f(x) \\ \mathrm{s.t.} & g_i(x) \leq0, \quad i=1,\cdots ,m \\ & h_i(x) = 0, \quad i=1,\cdots ,l \end{array} \ 阅读全文

posted @ 2021-01-29 09:05 MayeZhang 阅读(723) 评论(0) 推荐(0)

Loading

@张马也

公告