Loading

摘要: 演员-评论员算法( Actor-Critic Algorithm)是一种结合策略梯度和时序差分学习的强化学习方法。其中演员(Actor)是指策略函数 \(\pi _\theta\left( {a|s} \right)\),即学习一个策略来得到尽量高的回报。评论员(Critic)是指值函数 \({V_ 阅读全文
posted @ 2021-01-29 09:34 MayeZhang 阅读(1129) 评论(0) 推荐(0) 编辑
摘要: 对于DQN来说使用一个网络直接逼近了值函数,最后取得了非常不错的效果, 但是对于一些连续性控制或者动作空间特别大的环境来说,很难全部计算所有的值函数来得到最好的策略,那么直接计算策略的方法就别提出来了。 1 策略梯度理论 在Value Based的方法中,我们迭代计算的是值函数,然后根据值函数对策略 阅读全文
posted @ 2021-01-29 09:31 MayeZhang 阅读(1531) 评论(0) 推荐(0) 编辑
摘要: 线性搜索下降算法 Step 0:给定初始点$x^0$,\(k=0\); Step 1:判断$x^k$是否满足终止条件,满足则终止; Step 2:寻找$xk$处的下降方向$dk$; Step 3:选择合适的步长$\alphak>0$,使得$f(xk+\alpha_k dk)<f(xk)$; Step 阅读全文
posted @ 2021-01-29 09:11 MayeZhang 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 对于一般形式约束优化问题: \[ \begin{array}{cl} \min & f(x) \\ \mathrm{s.t.} & g_i(x) \leq0, \quad i=1,\cdots ,m \\ & h_i(x) = 0, \quad i=1,\cdots ,l \end{array} \ 阅读全文
posted @ 2021-01-29 09:05 MayeZhang 阅读(536) 评论(0) 推荐(0) 编辑