摘要:
对于DQN来说使用一个网络直接逼近了值函数,最后取得了非常不错的效果, 但是对于一些连续性控制或者动作空间特别大的环境来说,很难全部计算所有的值函数来得到最好的策略,那么直接计算策略的方法就别提出来了。 1 策略梯度理论 在Value Based的方法中,我们迭代计算的是值函数,然后根据值函数对策略 阅读全文
摘要:
线性搜索下降算法 Step 0:给定初始点$x^0$,\(k=0\); Step 1:判断$x^k$是否满足终止条件,满足则终止; Step 2:寻找$xk$处的下降方向$dk$; Step 3:选择合适的步长$\alphak>0$,使得$f(xk+\alpha_k dk)<f(xk)$; Step 阅读全文
摘要:
对于一般形式约束优化问题: \[ \begin{array}{cl} \min & f(x) \\ \mathrm{s.t.} & g_i(x) \leq0, \quad i=1,\cdots ,m \\ & h_i(x) = 0, \quad i=1,\cdots ,l \end{array} \ 阅读全文