摘要: 从相互交换确认中产生合作 总结: 为了改进传统的激励其他代理人机制,其存在隐私侵犯的问题,文中提出一种两阶段的请求和回应机制,即即使想要激励其他人送出的东西还需要得到接收方的回馈,接收方通过一个判断函数决定是否接收,接收则回馈同等奖励,不接受则回馈等绝对值得负面奖励。通过这样一个通信机制解决信息暴露 阅读全文
posted @ 2022-12-10 22:57 lanthanume 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 学会激励其他学习智能体 总结: 为了促进在一般和马尔可夫游戏中的多智能体之间的合作,为每个智能体配置一个奖励函数用来直接向其他智能体提供奖励,并明确解释接受该奖励者自身行为会受到的影响。该奖励函数会根据提供的奖励对其他智能体的产生的影响以及后续其他智能体对自己获取的环境奖励的影响来不断学习。使用该机 阅读全文
posted @ 2022-12-10 17:54 lanthanume 阅读(39) 评论(0) 推荐(0) 编辑