Machine Theory of Mind - 筱筱蛋坑

摘要：

　　Mind Theory泛指人类表示他人心理状态的能力，包括欲望、信仰和意图。作者设计了一套心智神经网络理论ToMnet，使用元学习建立它所遇到的智能体的模型，仅仅通过观察它们的行为。通过这个过程，ToMnet获得了要给强大的智能体行为的先验模型，可以仅使用少量的行为观察引导更丰富的有关智能体特征和精神状态的预测。作者将ToMnet应用于gridworld环境下的智能体中，结果表明他可以从不同的群体学习，建立随机的、算法的和深度强化学习的智能体，并通过经典的ToM任务，如SallyAnne测试认识到别人可能对世界有错误的信念。作者认为，该系统在其直接中自主学习如何建模其他智能体，是开发多智能体AI系统，构建人机交互中介技术和推进可解释AI的重要一步。

一、介绍

　　虽然深度学习和强化学习令人兴奋，但有些担心是我们对这些系统的理解滞后。神经网络通常被描述为不透明和无法解释的黑匣子，即便对网络的权重有完整的描述，但很难把握它们所利用的模式，以及它们可能在哪里出错。随着AI进入人类世界，要求我们能够理解它们的呼声越来越高。

　　让我们停下来想想“理解”另一个智能体到底意味着什么？我们每天都在面临这一挑战，与其他人打交道时它们的潜在特征、潜在状态和计算过程几乎是完全不可企及的。但是我们工作的非常熟练，可以对陌生人未来的行为做出预测，并推断出他们对于世界的理解，我们可以计划与他人的互动，并建立有效沟通。

　　“理解”其他智能体的一个显著特征是，它们很少提及或者根本没有提及智能体的真实底层结构。我们通常不会试图区估计别人的神经元活动，推断他们前额皮质的连接，或者计划与别人的海马体地图动态的详细近似值互动。认知心理学的一个重要论点是，我们社会推理依赖于其他主体的高级模型（Gopnik1992）。这些模型所涉及的抽象概念并不能详细描述所观察到的行为背后的物理机制；相反，我们描绘别人的精神状态，例如他们的欲望、信仰和意图。这种能力称为我们的心智理论Theory of Mind，在某些情况下我们可以利用自己的思维区模仿别人的思维，人类对于智能体的最终理解不是由我们的模型和机器的ground truth之间一一对应，而是这些模型能承担多少任务，如预测和计划。

　　在这篇论文中，作者从人类的心智理论中获得灵感，试图建立一个学习模仿其他智能体的系统，将其描述为心智的机器理论。目标不是主张一个智能体行为的生成模型和一个算法。相反作者关注观察者如何能够自主学习使用有限的数据对其他智能体建模。所以这项工作不同于以往，过去的方法依赖于人工设定的智能体模型作为信噪比规划者，例如使用逆RL，贝叶斯推理，贝叶斯心智理论，博弈论等。相反，作者学习智能体模型，以及如何通过元学习从头开始对它们进行推理。

　　构建一个丰富、灵活、高性能的心智智能理论可能是人工智能面临的一大挑战。作者并不是要解决所有问题，这篇文章的重点是将构建ToM的许多初始挑战转换为简单的学习问题，可以以数学方式表达。

　　这项工作有许多潜在应用。学习他人的丰富模型可以改善复杂多智能体任务的决策，特别是需要基于模型的规划和想象的情况下。文中工作与对对手建模的丰富历史联系在一起。在文中，作者展示了元学习可以用于为智能体提供为其他智能体建立灵活且高效模型的能力。这些模型对价值对齐，灵活合作非常重要，并可能成为未来机器道德决策的一部分。这对沟通和教学也非常有用，可能在人机交互中发挥很大的作用。探索这些能力产生的条件，或许可以解释人类能力的起源。最后，这些模型很可能为人类理解人工智能提供重要媒介。

　　最后，我们的目标是使人工智能体具有对于人类的可解释性。这里尝试一种新的方法，比起在架构上修改智能体来以人们可理解的方式揭露它们的内部状态，作者更希望构建中介系统，学习降低行为空间的维度，并以更易于理解的形式表示它。在这方面，ToM正是构建机器与人类期望之间的缺口。

1.1 方法

　　构建心智理论本质上是一个元学习问题（Schmidhuber1996,Thrun1998,Hochreiter2001,Vilalta2002）。在测试环节，希望能够遇到一个从未见过的新智能体，并且有一个强大且丰富的先验，关于它们接下来的表现。此外，在实际行为中可以采集它们的潜在特征和心理状态方面的数据，形成一个后验，改善预测性能。

　　为此指定了元学习任务：构造一个观察者，使它在每一个episode中获取一个新智能体的一组行为轨迹。观察者的目标是预测智能体的未来行为。在训练过程中，观察者应该能够从有限的数据中快速形成对新个体的预测。这里所说的元学习是指学会学习新的智能体。通过这个过程，观察者应该学习到一个有效的先验，超越了智能体的行为，隐含地捕捉训练群体中智能体的共性。

　　这里介绍两个概念描述观测器网络的组成部分及功能。区分两个概念，通用心理理论和具体智能体的心理理论。前者压缩了训练集上所有智能体共同行为的预测，后者针对测试时单一智能体的行为，压缩了这个智能体与他人不同的特征。这些对应先验和后验的智能体行为。

　　这篇论文在实验上不断增加心智网络的机器理论复杂性，称之为ToMnet Machine Theory of Mind network。这些实验展示了网络的能力，结合人类的心智理论典型特征，例如错误信念识别，来学习其他智能体的丰富模型。

　　文中一些实验直接受到Baker等人的贝叶斯心智理论启发，例如经典的food-truck实验。这里不会计算机的方式解释人类的判断，而是强调机器学习、可扩展性和自主性，把人类判断作为未来工作。

　　文章结构：3.1展示了对于简单随机的智能体，ToM学习在智能体特征上近似贝叶斯最优层次推理。

　　　　　　　3.2展示ToM学习推断算法智能体的目标（effectively performing few-shot inverse reinforcement learning），以及它们如何平衡成本和奖励。

　　　　　　　3.3展示ToM学习描述不同的深度强化学习智能体，捕捉种群中基本因素，并形成智能体的抽象嵌入。并证明了ToM可以发现行为空间的抽象。

　　　　　　　3.4展示ToM被在POMDPs上活动的深度强化智能体训练，它含蓄的学到这些智能体可能持有对世界的错误信念，这是人类心智理论的核心部分。

　　　　　　　3.5证明ToM可以被训练用于预测智能体的信念状态，从而揭示智能体的错误信念。ToM可以从智能体的行为中推断出它们可以看到什么，和它们倾向于相信什么。

posted on 2019-11-28 11:26 筱筱蛋坑阅读(503) 评论(0) 编辑收藏举报

刷新页面返回顶部