摘要: 背景及问题: 外部代理如何在观察学习智能体的基础上分配额外的奖惩促进学习者之间的合作。 创新及问题解决: 提出一条规则:通过考虑智能体预期的参数更新来自动学习创建正确的激励措施(等同于创建一种自适应社会奖惩机制) 证明了在某些环境下,措施在一定时间后关闭合作结果也是稳定的,而有些游戏则需要持续性的干 阅读全文
posted @ 2022-11-12 01:02 lanthanume 阅读(19) 评论(0) 推荐(0) 编辑