《LEARNING HOMOPHILIC INCENTIVES IN SEQUENTIAL SOCIAL DILEMMAS》 2022-ICLR

在序贯社会困境中学习同质性激励

总结：

由于在类似harvest这种困境中，带有惩罚功能的智能体惩罚他人会付出代价，由此可能引发第二层级的搭便车行为，即都不想进行惩罚动作付出小代价，那么最终困境将无法得到解决，最终导致合作行为地不稳定。为了解决上述问题，论文提出了利用同质性激励的方案，即具有相似行为的智能体，赋予相同的激励策略来使得最终大部分人同质而无法轻易地利用他人。