摘要: 策略梯度算法(PG) 策略梯度迭代,通过计算策略梯度的估计,并利用随机梯度上升算法进行迭代。其常用的梯度估计形式为: ... 阅读全文
posted @ 2020-02-05 15:54 从流域到海域 阅读(723) 评论(0) 推荐(0) 编辑