会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Loading
Burglar
博客园
首页
新随笔
联系
订阅
管理
2024年12月2日
强化学习的几个主要方法(策略梯度、PPO、REINFORCE实现等)
摘要:
本笔记有大量参考蘑菇书EasyRL https://datawhalechina.github.io/easy-rl/#/ 包括其配图和部分文本。 1. 基本概念 1.1 基本流程 强化学习是一种学习框架,其中智能体(Agent) 通过与 环境(Environment) 的交互,在每一步从环境中接收
阅读全文
posted @ 2024-12-02 21:16 [X_O]
阅读(105)
评论(0)
推荐(0)
编辑
公告