摘要:
翻译--近年来,实时策略游戏一直是游戏人工智能的重要领域。本文提出了一个强化学习和课程转换学习方法来控制星际争霸微操作中的多个单位。我们定义了一个有效的状态表示,它可以打破游戏环境中大型状态空间造成的复杂性。然后提出了parameter sharing multi-agent gradient descent Sarsa(λ)(PS-MAGDS)算法来训练单元。我们的单位共享the learning policy,以鼓励合作行为。我们使用神经网络作为函数逼近器来估计动作值函数,并提出奖励函数来帮助单位平衡他们的移动和攻击。此外,还使用转移学习方法将我们的模型扩展到更难的场景,从而加速培训过程并提高学习效果。在小规模情景中,我们的单位成功学会以100%的胜率战胜并击败内置的AI。在大规模情景中,课程转移学习方法用于逐步培训一组单位,并且在目标情景中显示出超过某些基准方法的优越性能。通过强化学习和课程转移学习,我们的单位能够在星际争霸微观管理情景中学习适当的策略。 阅读全文