会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
点此进入CSDN
你的浏览器不支持播放哦!!nuttertools 您的浏览器不支持该播放!
高颜值的殺生丸
博主擅长python和c++,从事人工智能领域自然语言处理和图像识别方面的工作,欢迎大家来讨论交流
博客园
首页
联系
管理
2024年5月14日
PPO近端策略优化玩cartpole游戏
摘要: 这个难度有些大,有两个policy,一个负责更新策略,另一个负责提供数据,实际这两个policy是一个东西,用policy1跑出一组数据给新的policy2训练,然后policy2跑数据给新的policy3训练,,,,直到policy(N-1)跑数据给新的policyN训练,过程感觉和DQN比较像,
阅读全文
posted @ 2024-05-14 21:56 高颜值的殺生丸
阅读(27)
评论(0)
推荐(0)
编辑
作者信息
昵称:
刘新宇
园龄:4年6个月
粉丝:1209
QQ:522414928