2023 年 6月 3 日随笔档案 - LOGAN_XIONG

2023年6月3日

Reinforcement Learning之Q-Learning - Python实现

摘要： - **算法特征** ①. 以真实reward训练Q-function; ②. 从最大Q方向更新policy $\pi$ - **算法推导** **Part Ⅰ: RL之原理** 整体交互流程如下, 定义策略函数(policy)$\pi$, 输入为状态(state)$s$, 输出为动作(action 阅读全文

posted @ 2023-06-03 21:51 LOGAN_XIONG 阅读(154) 评论(0) 推荐(0) 编辑

LOGAN_XIONG

天下风云出我辈一入江湖岁月催

公告

LOGAN_XIONG

天下风云出我辈 一入江湖岁月催

公告

天下风云出我辈一入江湖岁月催