摘要: ① medium:中等策略。② random:随机策略。③ medium-replay:训到中等策略的整个 replay buffer。④ medium-expert:等量混合专家数据和次优数据(次优或随机策略)。 阅读全文
posted @ 2024-03-09 17:36 MoonOut 阅读(919) 评论(0) 推荐(0) 编辑