点此进入CSDN

点此添加QQ好友 加载失败时会显示




摘要: 这个难度有些大,有两个policy,一个负责更新策略,另一个负责提供数据,实际这两个policy是一个东西,用policy1跑出一组数据给新的policy2训练,然后policy2跑数据给新的policy3训练,,,,直到policy(N-1)跑数据给新的policyN训练,过程感觉和DQN比较像, 阅读全文
posted @ 2024-05-14 21:56 高颜值的殺生丸 阅读(27) 评论(0) 推荐(0) 编辑

作者信息

昵称:

刘新宇

园龄:4年6个月


粉丝:1209


QQ:522414928