2023 年 2月 10 日随笔档案 - lanthanume

2023年2月10日

《Towards Cooperation in Sequential Prisoner’s Dilemmas: a Deep Multiagent Reinforcement Learning Approach》 2018-arxiv(未收录)

摘要：致力于序贯囚徒困境中的合作：一种多智能体深度强化学习的方法总结主要是针对复杂的序贯囚徒困境的合作提出的方法，目的是为了提高合作程度最终达到提高社会总收益的。该方法主要包括两阶段，第一阶段是离线生成策略阶段，运用普通的强化学习算法先单独计算每个智能体的策略之后整合，其中智能体的策略不是简单的非合作阅读全文

posted @ 2023-02-10 18:57 lanthanume 阅读(23) 评论(0) 推荐(0) 编辑

lanthanume

公告