Loading

摘要: 强化学习的几个主要方法(策略梯度、PPO、REINFORCE实现等) 本笔记有大量参考蘑菇书EasyRL https://datawhalechina.github.io/easy-rl/#/ 包括其配图和部分文本。 1. 基本概念 1.1 基本流程 强化学习是一种学习框架,其中智能体(Agent) 通过与 环境(Environment) 的交互,在每一步从环境中接收 阅读全文
posted @ 2024-12-02 21:16 [X_O] 阅读(105) 评论(0) 推荐(0) 编辑