摘要: 致力于序贯囚徒困境中的合作:一种多智能体深度强化学习的方法 总结 主要是针对复杂的序贯囚徒困境的合作提出的方法,目的是为了提高合作程度最终达到提高社会总收益的。该方法主要包括两阶段,第一阶段是离线生成策略阶段,运用普通的强化学习算法先单独计算每个智能体的策略之后整合,其中智能体的策略不是简单的非合作 阅读全文
posted @ 2023-02-10 18:57 lanthanume 阅读(23) 评论(0) 推荐(0) 编辑