摘要: - **算法特征** ①. 以真实reward训练Q-function; ②. 从最大Q方向更新policy $\pi$ - **算法推导** **Part Ⅰ: RL之原理** 整体交互流程如下, 定义策略函数(policy)$\pi$, 输入为状态(state)$s$, 输出为动作(action 阅读全文
posted @ 2023-06-03 21:51 LOGAN_XIONG 阅读(154) 评论(0) 推荐(0) 编辑