强化学习第2版第15章笔记——神经科学

　　神经科学是对神经系统的多学科研究的总称，主要包括：如何调节身体功能，如何控制行为，由发育、学习和老化所引起的随着时间的变化，以及细胞和分子机制如何使这些功能成为可能。强化学习的最令人兴奋的方面之一是来自神经科学的越来越多的证据表明，人类和许多其他动物的神经系统实施的算法和强化学习算法在很多方面是一一对应的。本章主要解释这些相似之处，以及他们对动物的基于奖励的学习的神经基础的看法。

　　强化学习和神经科学之间最显著的联系就是多巴胺，它是一种哺乳动物大脑中与奖励处理机制紧密相关的化学物质。多巴胺的作用就是将TD误差传达给进行学习和决策的大脑结构。这种相似的关系被表示为多巴胺神经元活动的奖励预测误差假说，这是由强化学习和神经科学实验结果引出的一个假设。我们在本章只讨论一些我们认为随着时间的推移会变得重要的联系。

　　正如我们在本书第1章的强化学习的早期历史部分(1.7节)所概述的，强化学习的许多方面都受到神经科学的影响。本章的第二个目标是向读者介绍有关脑功能的观点，这些观点对强化学习方法有所贡献。从脑功能的理论来看，强化学习的一些元素更容易理解。对于“资格迹”这一概念尤其如此，资格迹是强化学习的基本机制之一，起源于突触的一个猜想性质(突触是神经细胞与神经元之间相互沟通的结构)。

　　我们希望这一章给读者展现多种将强化学习以及理论基础与动物的基于奖励学习的神经科学理论联系起来的渠道。

15.1 神经科学基础

　　神经元是神经系统的主要组成部分，是专门用于电子和化学信号的处理及信息传输的细胞。它们以多种形式出现，但神经元通常具有细胞体、树突和单个轴突。树突是从细胞体分叉出来，以接收来自其他神经元的输入(或者在感觉神经元的情况下还接收外部信号)的结构。神经元的轴突是将神经元的输出传递给其他神经元(或肌肉、腺体)的纤维。神经元的输出由被称为动作电位的电脉冲序列构成，这些电脉冲沿着轴突传播。动作电位也被称为脉冲，而神经元在产生脉冲时被认为是触发的。在神经网络模型中，通常使用实验来表示神经元的放电速率，即每单位时间的平均放电次数。

　　神经元的轴突可以分很多叉，使神经元的动作电位达到许多目标。神经元轴突的分叉结构部分被称为神经元的轴突中枢。因为动作电位的传导是一个主动过程，与导火索的燃烧不同，所以当动作电位到达轴突的分叉点时，它会"点亮"所有输出分支上的动作电位(尽管有时会无法传播到某个分支)。因此，具有大型轴突中枢的神经元的活动可以影响许多目标位置。

　　突触通常是轴突分叉终止处的结构，作为中介调节一个神经元与另一个神经元之间的通信。突触将信息从突触前神经元的轴突传递到突触后神经元的树突或细胞体。除少数例外，当动作电位从突触前神经元的轴突传输到突触的时候，突触会释放化学神经递质(但有时神经元之间有直接电耦合的情况，但是在这里我们不涉及这些)。从突触的前侧释放的神经递质分子会弥漫在突触间隙，即突触前侧的末端和突触后神经元之间的非常小的空间，然后与突触后神经元表面的受体结合，以激发或抑制其产生脉冲的活性，或以其他方式调节其行为。一个特定的神经递质可能与几种不同类型的受体结合，每种受体在突触后神经元上产生不同的反应。许多不同的化学物质已被确定为动物神经系统中的神经递质。

　　神经元的背景活动指的是"背景"情况下的活动水平，通常是它的发放率。所谓"背景情况"是指神经元的活动不是由实验者指定的任务相关的突触输入所驱动的，例如，当神经元的活动与作为实验的一部分传递给被试者的刺激无关，我们就认为其活动是背景活动。背景活动可能由于输入来自于更广泛的网络而具有不规则性，或者由于神经或突触内的噪声而显得不规则。有时背景活动是神经元固有的动态过程的结果。与其背景活动相反，神经元的阶段性活动通常由突触输入引起的脉冲活动发放组成。对于那些变化缓慢、经常以分级的方式进行的活动，无论是否是背景活动，都被称为神经元的增补活动。

　　突触释放的神经递质对突触后神经元产生影响的强度或有效性就是突触的效能。一种利用经验改变神经系统的方式就是通过改变突触的效能来改变神经系统，这个"效能"是突触前和突触后神经元的活动的组合产生的结果，有时也来自于神经调节剂产生的结果。所谓神经调节剂，就是除了实现直接的快速兴奋或抑制之外，还会产生其他影响的神经递质。

　　大脑含有几个不同的神经调节系统，由具有广泛分叉的树状轴突神经元集群组成，每个系统使用不同的神经递质。神经调节可以改变神经回路的功能、中介调整的动因、唤醒、注意力、记忆、心境、情绪、睡眠和体温。这里重要的是，神经调节系统可以分配诸如强化信号之类的标量信号以改变突触的操作，这些突触往往广泛分布在不同地方但对神经元的学习具有关键作用。

　　突触效能变化的能力被称为突触可塑性。这是学习活动的主要机制之一。通过学习算法调整的参数或权重对应于突触效能。正如我们下面要详细描述的，通过神经调节剂多巴胺对突触可塑性进行调节是大脑实现学习算法的一种机制，就像本书所描述的那些算法一样。

15.2 奖励信号、强化信号、价值和预测误差

　　神经科学和计算型的强化学习之间的联系始于大脑信号和在强化学习理论与算法中起重要作用的信号之间的相似性。

　　奖励信号(以及智能体的环境)定义了强化学习智能体正试图解决的问题。就这一点而言，R_t就像动物大脑中的一个信号，定义奖励在大脑各个部位的初始分布。但是在动物的大脑中不可能存在像R_t这样的统一的奖励信号。我们最好把R_t看作一个概括了大脑中许多评估感知和状态奖惩性质的系统产生的大量神经信号整体效应的抽象。

　　强化学习中的强化信号与奖励信号不同。强化学习的作用是在一个智能体的策略、价值估计或环境模型中引导学习算法做出改变。对于时序差分方法，例如，t时刻的强化信号是TD误差。某些算法的强化信号可能仅仅是奖励信号，但是大多数是通过其他信号调整过的奖励信号，例如TD误差中的价值估计。

　　状态价值函数或动作价值函数的估计，即V或Q，指明了在长期内对智能体来说什么是好的，什么是坏的。它们是对智能体未来期望累积的总奖励的预测。智能体做出好的决策，就意味着选择合适的动作以到达具有最大估计状态价值的状态，或者直接选择具有最大估计动作价值的动作。

　　预测误差衡量期望和实际信号或感知之间的差异。奖励预测误差(reward prediction errors, RPE)衡量期望和实际收到的奖励信号之间的差异，当奖励信号大于期望时为正值，否则为负值。当神经科学家提到RPE时，他们一般(但不总是)指TD RPE，在本章中我们简单地称之为TD误差。在本章中，TD误差通常不依赖于动作，不同于在Sarsa和Q学习算法中学习动作价值时的TD误差。这是因为最明显的与神经科学的联系是用动作无关的TD误差来表述的，但是这并不意味这不存在与动作无关TD误差的联系(用于预测奖励以外信号的TD误差也是有用的，但我们不加以考虑)。

　　实验证据表明，一种神经递质，特别是多巴胺，表示RPE信号，而且生产多巴胺的神经元的相位活动事实上会传递TD误差(见15.1节关于相位活动的定义)。这个证据引出了多巴胺神经元活动的奖励预测误差假说，我们将在下面描述。

15.3 奖励预测误差假说

　　多巴胺神经元活动的奖励预测误差假说认为，哺乳动物体内产生多巴胺的神经元的相位活动的功能之一，就是将未来的期望奖励的新旧估计值之间的误差传递到整个大脑的所有目标区域。Montague、Dayan和Sejnowski (1996)首次明确提出了这个假说(虽然没有用这些确切的词语)，他们展示了强化学习中的TD误差概念是如何解释哺乳动物中多巴胺神经元相位活动各种特征的。引出这一假说的实验于20世纪80年代、90年代初在神经科学家沃尔夫拉姆·舒尔茨的实验室进行。15.5节描述了这些重要实验，15.6节解释了这些实验的结果与TD误差的一致性，本章末尾的参考文献和历史评注部分包含了记录这个重要假设发展历程的文献。

　　Montague等人(1996)比较了经典条件反射下时序差分模型产生的TD误差和经典条件反射环境下产生多巴胺的神经元的相位活动。回顾14.2节，经典条件反射下的时序差分模型基本上是线性函数逼近的半梯度下降TD(λ)算法。Montague等人做了几个假设来进行对比。首先，由于TD误差可能是负值，但神经元不能有负的发放率，所以他们假设与多巴胺神经元活动相对应的量是δ_t-1+b_t，其中b_t是神经元的背景发放率。负的TD误差对应于多巴胺神经元低于其背景发放率的发放率降低量¹。

　　第二个假说是关于每次经典条件反射试验所访问到的状态以及它们作为学习算法的输入量的表示方式的。这种表示方式使得TD误差能够模仿这样一种现象：多巴胺神经元活动不仅能预测未来奖励，也对收到预测线索之后，奖励何时可以达成是敏感的。我们必须有一些方法来追踪感官线索和奖励达成之间的间隔时间。如果一个刺激对其后会继续产生的内部信号的序列进行了初始化，并且它们在刺激结束之后的每个时刻都产生不同的信号，那么在每个时刻，我们可以用不同的状态来表示这些信号。因此，依赖于状态的TD误差对试验中事件发生的时间是敏感的。

　　有了这些有关背景发放率和输入表示的假说，在15.5节的模拟实验中，时序差分模型的TD误差与多巴胺神经元的相位活动就十分相似了。在15.5节中我们对这些相似性细节进行了描述，TD误差与多巴胺神经元的下列特征是相似的：1）多巴胺神经元的相位反应只发生在奖励事件不可预测时；2）在学习初期，在奖励之前的中性线索不会引起显著的相位多巴胺反应，但是随着持续的学习，这些线索获得了预测值并随即引起了相位多巴胺反应；3）如果存在比已经获得预测值的线索更早的可靠线索，则相位多巴胺反应将会转移到更早的线索，并停止寻找后面的线索；4）如果经过学习之后，预测的奖励事件被遗漏，则多巴胺神经元的反应在奖励事件的期望时间之后不久就会降低到其基准水平之下。

　　虽然在Schultz等人的实验中，并不是每一个被监测到的多巴胺神经元都有以上这些行为，但是大多数被监测神经元的活动和TD误差之间惊人的对应关系为奖励预测误差假说提供了强有力的支持。然而，仍存在一些情况，基于假设的预测与实验中观察到的不一致。

1 多巴胺神经元活动相关的TD误差中的δ_t与我们的δ_t-1 = R_t + γV(S_t) - V(S_t-1)是类似的。

15.4 多巴胺

　　多巴胺是神经元产生的一种神经递质，其细胞质主要位于哺乳动物大脑的两个神经元群中：黑质致密部(SNpc)和腹侧被盖区(VTA)。多巴胺不是参与奖励处理的唯一神经调节剂，其在厌恶情况下的作用(惩罚)仍然存在争议。多巴胺也可以在非哺乳动物中发挥作用。但是在包括人类在内的哺乳动物的奖励相关过程中，多巴胺起到的重要作用毋庸置疑。

　　一个早期的传统观点认为，多巴胺神经元会向涉及学习和动机的多个大脑区域广播奖励信号。这种观点来自詹姆斯·奥尔德斯(James Olds)和彼得·米尔纳(Peter Milner)，他们在1954年著名的论文中描述了电刺激对老鼠大脑某些区域的影响。他们发现，对特定区域的电刺激对控制老鼠的行为方面有极强的作用：“……通过这种奖励对动物的行为进行控制是极有效的，可能超过了以往所有用于动物实验的奖励”(Olds和Milner, 1954)。后来的研究表明，这些对最敏感的位点的刺激所激发的多巴胺通路，通常就是直接或间接地被自然的奖励刺激所激发的多巴胺通路。在人类被试者中也观察到了与老鼠类似的效应。这些观察结果有效表明多巴胺神经元活动携带了奖励信息。

　　但是，如果奖励预测误差假说是正确的，即使它只解释了多巴胺神经元活动的某些特征，那么这种关于多巴胺神经元活动的传统观点也不完全正确：多巴胺神经元的相位反应表示了奖励预测误差，而非奖励本身。在强化学习的术语中，时刻 t 的多巴胺神经元相位反应对应于δ_t-1 = R_t + γV(S_t) - V(S_t-1)，而不是R_t。

　　强化学习的理论和算法有助于一致性地解释"奖励-预测-误差"的观点与传统的信号奖励的观点之间的关系。在本书讨论的许多算法中，δ作为一个强化信号，是学习的主要驱动力。δ的动作相关的形式是Q学习和Sarsa的强化信号。奖励信号R_t是δ_t-1的重要组成部分，但不是这些算法中强化效应的完全决定因素。附加项γV(S_t) - V(S_t-1)是δ_t-1的次级强化部分，即使有奖励(R_t ≠ 0)产生，如果收益可以被完全预测，则TD误差也可以是没有任何影响的(15.6节详细解释)。

　　事实上，仔细研究Olds和Milner 1954年的论文可以发现，这主要是工具性条件反射任务中电刺激的强化效应。电刺激不仅能激发老鼠的行为——通过多巴胺对动机的作用，还导致老鼠很快学会通过按压杠杆来刺激自己，而这种刺激会长时间频繁进行。电刺激引起的多巴胺神经元活动强化了老鼠的杠杆按压动作。

　　最近使用光遗传学方法的实验证实了多巴胺神经元的相位反应作为强化信号的作用。

　　多巴胺强化作用的另外证据来自果蝇的光遗传学实验，尽管这些动物中多巴胺的作用与哺乳动物中的作用相反：至少对多巴胺神经元活化的群体来说，多巴胺神经元活性的光学触发像对脚电击一样来强化"回避行为"(Claridge-Chang等, 2009)。虽然这些光遗传学实验都没有显示多巴胺神经元相位活动特别像TD误差，但是它们有力地证明了多巴胺神经元相位活动像δ在强化信号预测(经典条件反射)和控制(工具性条件反射)中那样起着重要作用(或许对果蝇来说像-δ的作用)。

　　多巴胺神经元特别适合于向大脑的许多区域广播强化信号。

　　如果多巴胺神经元像强化信号δ那样广播强化信号，那么由于这是一个标量信号，即单个数字，所以SNpc和VTA中的所有多巴胺神经元会被预期以相同的方式激活，并以近似同步的方式发送相同的信号到所有轴突的目标位点。尽管人们普遍认为多巴胺神经元确实能够像这样一起行动，但最新证据指出，多巴胺神经元的不同亚群对输入的响应取决于它们向其发送信号的目标位点和结构，以及信号对目标位点结构的不同作用方式。多巴胺具有传导RPE以外的功能。而且即使是传导RPE信号的多巴胺神经元，多巴胺也会将不同的RPE发送到不同的结构去，这个发送过程是根据这些结构在产生强化行为中所起的作用来进行的。

　　大多数多巴胺神经元的轴突与额叶皮层和基底神经节中的神经元发生突触接触，涉及自主运动、决策、学习和认知功能的大脑区域。由于大多数关于多巴胺强化学习的想法都集中在基底神经节，而多巴胺神经元的连接在那里特别密集，所以我们主要关注基底神经节。基底神经节是很多神经元组(又称"神经核")的集合，位置在前脑的基底。基底节的主要输入结构称为纹状体。基本上所有的大脑皮层以及其他结构，都为纹状体提供输入。皮层神经元的活动传导关于感官输入、内部状态和运动活动的大量信息。皮层神经元的轴突在纹状体的主要输入/输出神经元的树突上产生突触接触，称为中棘神经元。纹状体的输出通过其他基底神经核和丘脑回到皮质的前部区域和运动区域，使得纹状体可能影响运动、抽象决策过程和奖励处理。纹状体的两个主要分叉对于强化学习来说十分重要：背侧纹状体，主要影响动作选择；和腹侧纹状体，在奖励处理的不同方面起关键作用，包括为各类知觉分配有效价值。

　　但有证据表明，神经科学家称之为皮质纹状体突触的从皮层到纹状体突触相关性的变化，取决于恰当时机的多巴胺信号。

15.5 奖励预测误差假说的实验支持

　　多巴胺神经元以激烈、新颖或意想不到的视觉、听觉刺激来触发眼部和身体的运动，但它们的活动很少与运动本身有关。这非常令人惊讶，因为多巴胺神经元的功能衰退是帕金森病的一个原因，其症状包括运动障碍，尤其是自发运动的缺陷。Romo和Schultz (1990)以及Schultz和Romo (1990)通过记录猴子移动手臂时多巴胺神经元和肌肉的活动开始向奖励预测误差假说迈出第一步。

　　他们训练了两只猴子，当猴子看见并听到门打开的时候，会把手从静止的地方移动到一个装有苹果、饼干或葡萄干的箱子里。然后猴子可以抓住食物并吃到嘴里。当猴子学会这么做之后，它又接受另外两项任务的训练。第一项任务的目的是看当运动是自发时多巴胺神经元的作用。箱子是敞开的，但上面被覆盖着，猴子不能看待箱子里面的东西，但可以从下面伸手进去。预先没有设置触发刺激，当猴子够到并吃到食物后，实验者通常(虽然并非总是)在猴子没看见的时候悄悄将箱中的食物粘到一根坚硬的电线上。在这里，Romo和Schultz观察到的多巴胺神经元活动与猴子的运动无关，但是当猴子首先接触到食物时，这些神经元中的大部分会产生相位反应。当猴子碰到电线或碰到没有食物的箱子时这些神经元没有响应。这是表明神经元只对食物，而非任务中的其他方面有反应的很好的证据。

　　Romo和Schultz第二个任务的目的是看看当运动被刺激触发时会发生什么。这个任务使用了另外一个有可移动盖子的箱子。箱子打开的画面和声音会触发朝向箱子的移动。在这种情况下，Romo和Schultz发现，经过一段时间的训练后，多巴胺神经元不再响应食物的触摸，而是响应食物箱开盖的画面和声音。这些神经元的相位反应已经从奖励本身转变为预测奖励可用性的刺激。在后续研究中，Romo和Schultz发现，他们所监测的大多数多巴胺神经元对行为任务背景之外的箱子打开的视觉和声音没有反应。这些观察结果表明，多巴胺神经元既不响应于运动的开始，也不响应于刺激的感觉特性，而是表示奖励的期望。

　　上述研究的观察结果使Schultz和他的小组得出结论：多巴胺神经元对不可预测的奖励，最早的奖励预测因子做出反应，如果没有发现奖励或者奖励的预测因子，那么多巴胺神经元活性会在期望时间内降低到基准之下。熟悉强化学习的研究人员很快就认识到，这些结果与时序差分算法中时序差分强化信号的表现非常相似。

15.6 TD误差/多巴胺对应

　　上面描述的例子解释了为什么当动物学习与我们例子中的理想化的任务类似的任务时，TD误差与多巴胺神经元的相位活动有着共同的关键特征。但是并非多巴胺神经元的相位活动的所有性质都能与δ的性质完美对应起来。最令人不安的一个差异是，当奖励比预期提前发生时会发生什么。我们观察到一个预期奖励的省略会在奖励预期的时间产生一个负的预测误差，这与多巴胺神经元降至基准以下相对应。如果奖励在预期之后到达，它就是非预期奖励并产生一个正的预测误差。这在TD误差和多巴胺神经元反应中同时发生。但是如果奖励提前于预期发生，则多巴胺神经元与TD误差的反应不同——至少在Montague et al.（1996）使用的CSC表示与我们的例子中不同。多巴胺神经元会对提前的奖励进行反应，反应与正的TD误差一致，因为奖励没有被预测会在那时发生。然后，在后面预期奖励出现却没有出现的时刻，TD误差将为负，但多巴胺神经元的反应却并没有像负的TD误差的那样降到基准以下(Hollerman和Schultz, 1998)。在动物的大脑中发生了相比于简单的用CSC表示的TD学习更加复杂的事情。

　　一些TD误差与多巴胺神经元行为的不匹配可以通过选择对时序差分算法合适的参数并利用除CSC表示外的其他刺激表示来解决。Pan、Schmidt、Wickens和Hyland (200)发现即时使用CSC表示，延迟的资格迹可以改进TD误差与多巴胺神经元活动的某些方面的匹配情况。一般来说，TD误差的许多行为细节取决于资格迹、折扣和刺激表示之间微妙的相互作用。这些发现在不否认多巴胺神经元的相位行为被TD误差信号很好地表征的核心结论下细化了奖励预测误差假说。

　　一个明显的发展方向是，与多巴胺系统的性质如此契合的强化学习算法和理论完全是从一个计算的视角开发的，没有考虑到任何多巴胺神经元的相关信息——注意，TD学习和它与最优化控制及动态规划的联系是在任何揭示类似TD的多巴胺神经元行为本质的实验进行前很多年提出的。这些意外的对应关系，尽管还并不完美，却也说明了TD误差和多巴胺的相似之处抓住了大脑奖励过程的某些关键环节。

15.7 神经"行动器-评判器"

　　"行动器-评判器"算法同时对策略和价值函数进行学习。行动器是算法中用户学习策略的组件，评判器是算法中用于学习对行动器的动作进行"评价"的组件，这个"评价"是基于行动器所遵循的策略来进行的，无论这个策略是什么。评判器采用TD算法来学习行动器当前策略的状态价值函数。价值函数允许评判器通过向行动器发送TD误差δ来评价一个行动器的动作。根据这个评价，行动器会持续更新其策略。

　　"行动器-评判器"算法有两个鲜明特征让我们认为大脑也许采用了类似的算法。第一个是，"行动器-评判器"算法的两个部分(行动器和评判器)代表了纹状体的两部分(背侧和腹侧区)。对于基于奖励的学习来说，这两部分都非常重要——也许分别起着行动器和评判器的作用。暗示大脑的实现是基于"行动器-评判器"算法的第二个特征是，TD误差有着同时作为行动器和评判器的强化信号的双重作用。这与神经回路的一些性质是吻合的：多巴胺神经元的轴突同时以纹状体背侧和腹侧区为目标；多巴胺对于调节两个结构的可塑性都非常重要；且像多巴胺一样的神经调节器如何作用在目标结构上取决于目标结构的特征而不仅取决于调节器的特征。

　　评判器和行动器网络都可以接收多个特征，它们表示了智能体所在的环境的状态。从每个特征x_i到评判器单元V的连接，以及它们到每个动作单元A_i的连接都有一个对应的权重参数，表示突触的效能。在评判器网络中的权重参数化了价值函数，在行动器网络中的权重参数化了策略。网络根据我们下一章中描述的"行动器-评判器"学习规则来改变权重进行学习。

　　在评判器神经回路产生的TD误差是改变的评判器和行动器网络权重的增强信号。

　　在图15.5b中展示的假设的一个重要的含义是：多巴胺信号不是像强化学习量R_t这样的主要奖励信号。事实上，这个假设暗示了人们并不一定能探测大脑并从任何单个神经元的活动中找出类似R_t的信号。奖励相关的信息是由许多相互联系的神经系统产生的，并根据不同的奖励采用不同的结构。多巴胺神经元从许多不同的大脑区域收集信息，所以对SN_pc和VTA的输入(在图15.5b中标为"奖励")应该被认为是从多个输入通道一起到达核中的神经元的奖励相关信息的向量。理论上的奖励标量信号值Rt应该与对多巴胺神经活动有关的所有奖励相关信息的贡献相联系。这是横跨不同大脑区域的许多神经元的综合活动模式的结果。

　　尽管在图15.5b中展示的"行动器-评判器"神经实现在某些问题下可能是正确的，但它明显需要提炼、拓展、修改，才有资格作为一个完整的多巴胺神经元相位活动的功能模型。在本章末的参考文献和历史评注部分引用了更详细的支持这一假说和反对这一假说的实证。我们现在具体来看看行动器和评判器的学习算法是如何揭示控制突触功能变化的规则的。

15.8 行动器与评判器学习规则

　　如果大脑真的实现了类似于"行动器-评判器"的算法，并且假设大量的多巴胺神经元广播一个共同的强化信号到背侧和腹侧纹状体的皮质突触处，那么这个强化信号对于这两种结构的突触的影响是不同的。行动器和评判器的学习规则使用的是同样的强化信号，即TD误差δ，但是这两个部分对学习的影响是不同的。TD误差(与资格迹结合)告诉行动者如何更新动作的概率以到达具有更高价值的状态。行动器的学习有些类似于采用效应定律的工具性条件反射(1.7节)，行动器的目标是使得δ尽可能为正。另一方面，TD误差(当与资格迹结合时)告诉评判器价值函数参数改变的方向与幅度以提高其预测准确性。评判器致力于减小δ的幅度，采用类似于经典条件反射(14.2节)中的TD模型的学习规则使幅度尽量接近于零。行动器和评判器学习规则之间的区别相对简单，但是这个区别对于"行动器-评判器"算法本质上如何起作用有着显著的影响。区别仅仅在于每种学习规则使用的资格迹的类型。

　　如图15.5b所示，多于一类以上的学习规则可以被用来训练"行动器-评判器"网络。但具体来说，在这里我们集中讨论13.6节针对持续性问题的带资格迹的"行动器-评判器"算法。在每个从状态S_t到状态S_t+1的转移过程中，智能体选取动作A_t，并且得到奖励值R_t+1，算法会计算TD误差，然后更新资格迹向量()和评判器与行动器的参数(w和θ)，更新方式如下：

其中，γ ∈ [0, 1)是折扣率，λ^wc ∈ [0, 1]和λ^wa ∈ [0, 1]分别是评判器与行动器的自举参数。α^w > 0和α^θ > 0是步长参数。

　　可以把估计价值函数看做一个线性神经元的输出，称为评判器单元，在图15.5a中被标记为V。从而，价值函数就是表示状态s的特征向量的线性函数，x(s) = (x₁(s), ... , x_n(s))^T。价值函数被权重向量w = (w₁, ... , w_n)^T参数化为：

　　每个x_i(s)就像神经元突触的突触前信号，其功效为w_i。权重由上面公式的规则更新：，这里强化信号δ_t对应于广播到所有评判器单元的多巴胺信号。资格迹向量对于评判器单元是的一个迹(最近几个值的平均)。由于对于权重是线性的，所以。

　　从神经方面来说，这意味着每一个突触有着自己的资格迹，并且是向量的一个分量。一个突触的资格迹根据到达突触的活动水平，即突触前活动的水平，不断地累积，在这里由到达突触的特征向量x(S_t)的分量所表示。此外这个资格迹由分数λ^w所支配的速率向零衰减。当一个突触的资格迹非零时，称其为可修改的。突触的功效如何被修改取决于突触可修改时到达的强化信号。我们称这些评判器单元的突触的资格迹为非偶发资格迹，这里因为它们仅仅依赖于突触前活动并且不以任何方式影响突触后活动。

　　评判器单元的突触的非偶发资格迹意味着评判器单元的学习规则本质上是14.2节中描述的经典条件反射的TD模型。使用我们在上文对评判器单元和它的学习规则的定义，图15.5a中的评判器与Barto et al. (1983)中的神经网络"行动器-评判器"算法中的评判器是相同的。显然，这样只有一个线性类神经单元的评判器只是一个最简单的起点，这样的评判器单元是一个更复杂的有能力学习更复杂价值函数的神经网络的一个代理。

　　图15.5a中的行动器是一个有k个类神经行动器单元的单层网络，并且在时刻 t 接收和评判器单元一样的特征向量x(S_t)。每一个行动器单元 j，j = 1, ... , k，有自己的权重向量θ_j，但是由于所有的行动器单元都是相同的，所以我们只描述其中一个，并省略其下标。这些单元遵循上面的"行动器-评判器"算法的一种实现是：每一个单元均为伯努利逻辑单元。这意味着，每一个行动器单元的输出是一个取值为0或1的随机变量A_t。把值1看作神经元的放电，即放出一个动作单位。一个单元的输入向量的加权和θ^Tx(S_t)通过柔性最大化分布(式13.2)决定了这个单元的动作被选择的概率，对于两个动作的情况即为逻辑回归函数：

　　每一个行动器单元的权重通过上面的规则更新：，这里δ依然对应多巴胺信号：送往所有行动器单位突触的相同的强化信号。图15.5a中展示了δ_t广播到了每一个行动器单位的突触(这使得整个行动器网络形成了一个强化学习智能体团队，我们将在15.10节中讨论这个问题)。行动器的资格迹向量是的资格迹。为了理解这个资格迹，请参看练习13.5，在该练习中定义了这些类型的单元并要求给出它的强化学习规则。练习要求你通过计算梯度，用a、x(s)和π(a|s,θ)这些项表示。对于在时刻 t 的动作和状态，答案是(直接利用链式法则求导即可)：

　　与评判器突触只累积突触前活动x(S_t)的非偶发资格迹不同，行动器单元的资格迹还取决于行动器单元本身的活动，我们称其为偶发资格迹。资格迹在每一个突触都会持续衰减，但是会根据突触前活动以及突触后神经元是否发放增加或减少。行动器单元资格迹的突触后偶发性是评判器与行动器学习规则唯一的区别。由于保持了在哪个状态采取了怎样的动作这样的信息，偶发资格迹允许产生的奖励(正δ)或者接受的惩罚(负δ)根据策略参数(对行动器单元突触的功效)进行分配，其依据是这些参数对之后的δ值的影响的贡献。偶发资格迹标记了这些突触应该如何修改才能更有效地导向正值的δ。

　　评判器与行动器的学习规则是如何改变皮质突触的功效的呢？两个学习规则都与唐纳德·赫布的经典推论相关，即当一个突触前信号参与了激活一个突触后神经元时，突触的功效应该增加(Hebb, 1949)。评判器和行动器的学习规则与Hebbian的推论共同使用了这么一个观点，那就是突触的功效取决于几个因素的相互作用。在评判器学习规则中，这种相互作用是在强化信号δ与只依赖于突触前信号的资格迹之间的。神经科学家称其为双因素学习规则，这是因为相互作用在两个信号或量之间进行。另一方面，行动器学习规则是三因素学习规则，这是因为除了依赖于δ，其资格迹还同时依赖于突触前和突触后活动。然后，与Hebb的推论不同的是，不同因素的相对发生时间对突触功效的改变是至关重要的，资格迹的介入允许强化信号影响最近活跃的突触。

　　评判器与行动器学习规则的信号之间的一些细微之处更加值得关注。在定义类神经评判器与行动器单元时，我们忽略了突触的输入需要少量的时间来影响真正的神经元的放电。当一个突触前神经元的动作电位到达突触时，神经递质分子被释放并跨越突触间隙到达突触后神经元，并与突触后神经元表面上的受体结合；这会激活使得突触后神经元放电的分子机制(或者在抑制突触输入情况下抑制其放电)。这个过程可能持续几十毫秒。但是，根据式(15.1)与式(15.2)，对评判器与行动器单元进行输入，会瞬间得到单元的输出。像这样忽略激活时间在Hebbian式可塑性的抽象模型中是很常见的，这种模型里突触的功效的改变由同时发生的突触前与突触后活动决定。更加真实的模型则必须要将激活时间考虑进去。

　　激活时间对于更真实的行动器单元更加重要，这是因为它会影响偶发资格迹如何将强化信号分配到合适的突触。表达式定义了行动器单元的学习规则所对应的偶发资格迹，它包括了突触后因子与突触前因子。这个能够起作用，是因为在忽略了激活时间的情况下，突触前活动参与了引起在中出现的突触后活动。为了正确地分配强化信号，在资格迹中定义的突触前因子必须是同样定义在资格迹中的突触后因子的产生动因。更真实的行动器单元的偶发资格迹不得不将激活函数考虑进来(激活时间不应该与神经元获取其活动导致的强化信号所需的时间所混淆。资格迹的功能是跨越这个一般来说比激活时间更长的间隔，我们会在后面的章节进一步讨论这个问题)。

　　神经科学已经提示了这个过程是如何在大脑中起作用的。神经科学家发现了一种被称为脉冲时序依赖可塑性(STDP)的赫布式可塑性，这似乎有助于解释类行动器的突触可塑性在大脑中的存在。STDP是一种Hebbian式可塑性，但是其突触功效的变化依赖于突触前与突触后动作电位的相对时间。这种依赖可以采取不同的形式，但是最重要的研究发现，如果脉冲通过突触到达且时间在突触后神经元放电不久之前，则突触强度会增加。如果时间顺序颠倒，那么突触的强度会减弱。STDP是一种需要考虑神经元激活时间的Hebbian式可塑性，这是类行动器学习所需要的一点。

　　STDP的发现引导神经科学家去研究一种可能的STDP的三因素形式，这里的神经调节输入必须遵循适当的突触前和突触后脉冲时间。这种形式的突触可塑性，被称为奖励调节STDP，其与行动器学习规则十分类似。常规的STDP产生的突触变化，只会发生在一个突触前脉冲紧跟着突触后脉冲的时间窗口内神经调节输入的时候。越来越多的证据证明，基于奖励调节的STDP发生在背侧纹状体的中棘神经元的脊髓中，这表明行动器学习在"行动器-评判器"算法的假想神经实现中确实发生了。实验已经证明基于奖励调节的STDP中，皮质纹状体突触的功效变化只在神经调节脉冲在突触前脉冲以及紧跟着的突触后脉冲之间的10 s的时间窗口内到达才会发生(Yagishita et al., 2014)。尽管证据都是直接的，但这些实验指出了偶发资格迹的存在延续了时间的进程。产生这些迹的分子机制以及可能属于STDP的迹都要短得多，而且尚未被理解，但是侧重于时间依赖性以及神经调节依赖性的突触可塑性的研究依然在继续。

　　我们这里讨论的使用效应定律学习规则的类神经行动器单元，在Barto et al. (1983)的"行动器-评判器"网络中以一种比较简单的形式出现。这个网络受到一种由生理学家A. H. Klopf (1972, 1982)提出的"享乐主义神经元"假说的启发。注意，不是所有的Klopf的假说的细节都与我们已知的突触可塑性的知识一致，但是STDP的发现和越来越多基于奖励调节的STDP的证据说明Klopf的想法并不太离谱。我们接下来将讨论Klopf的享乐主义神经元假说。

15.9 享乐主义神经元

　　在享乐主义神经元假说中，Klopf (1972, 1982)猜测，每一个独立的神经元会寻求将作为奖励的突触输入与作为惩罚的突触输入之间的差异最大化，这种最大化是通过调整它们的突触功效来实现的，调整过程基于它们自己的动作电位所产生的奖励或惩罚的结果。换言之，如同可以训练动物来完成工具性条件反射任务一样，单个神经元用基于条件性反应的强化信号来训练。他的假说包括这样的思想：奖励或者惩罚通过相同的突触被输入到神经元，并且会激发或者抑制神经元的脉冲发放活动(如果Klopf知道我们今天对神经调节系统的了解，他可能会将强化学习分配给神经调节输入，但是他尝试避免任何中心化的训练信息来源)。过去的突触前与突触后活动的突触局部迹在Klopf的假说中，是决定突触是否具备资格(就是他引入的"资格"一词)可以对之后的奖励或者惩罚进行修改的关键。他猜测，这些迹是由每个突触局部的分子机制实现的，因而与突触前与突触后神经元的电生理活动是不同的。在本章后面的参考文献和历史评注部分我们给出了一些其他人的类似的想法。

　　Klopf推断突触功效通过如下方式变化：当一个神经元发放出一个动作电位时，它的所有促进这个动作电位的突触会变得有资格来经历其功效的变化。如果一个动作电位在奖励值提升的一个适当的时间内被触发，那么所有有资格的突触的功效都会提升。对应地，如果一个动作电位在惩罚值提升的一个适当时间内被触发，那么所有有资格的突触功效都会下降。这是通过在突触那里触发资格迹来实现的，这种触发只在突触前与突触后的活动碰巧一致的时候才会发生(或者更准确地说，是在突触前活动和该突触前活动所参与引发的突触后活动同时出现的时候才会发生)。这实际上就是我们在前一节描述的行动器单元的三因素学习规则。

　　Klopf理论中资格迹的形状与时间因素反映了神经元所处的许多反馈回路的持续时间，其中的一些完全位于机体的大脑和身体内，而另一些则通过运动与感知系统延伸到机体外部的环境中。他的想法是资格迹的形状是神经元所处的反馈回路的持续时间的直方图。资格迹的高峰会出现在神经元参与的最常见的反馈回路发生的持续时间内。本书中的算法使用的资格迹是Klopf原始想法的一个简化版本，通过由参数λ和γ控制的指数(或者说几何)下降的函数实现。这简化了仿真模拟与理论，但是我们认为这些简单的资格迹是Klopf原始的迹概念的一个代替，后者在完善功劳分配过程的复杂强化学习系统中可能拥有计算优势。

　　Klopf的享乐主义神经元假说超出了单个神经元是强化学习智能体的观点。他认为智能的许多方面可以被理解为是具有自私享乐主义的神经元群体的集体行为的结果，这些神经元在构成动物神经系统的巨大的社会和经济系统中相互作用。无论这个观点对神经系统是否有用，强化学习智能体的集体行为对神经科学是有影响的。接下来我们讨论这个问题。

15.10 集体强化学习

　　强化学习智能体群体的行为与社会以及经济系统的研究高度相关。如果Klopf的享乐主义神经元假设是正确的，则其与神经科学也是相关的。上文描述的人类大脑实现"行动器-评判器"算法的假说，仅仅在狭窄的范围内契合了纹状体的背侧与腹侧的细分。根据假说，它们分别对应行动器与评判器，每一个都包括数以百万计的中棘神经元，这些中棘神经元的突触改变是由多巴胺神经元活动的相位调制引起的。

　　当强化学习智能体群体的所有成员都根据一个共同的奖励信号学习时，强化学习理论可以告诉我们什么？多智能体强化学习领域考虑了强化学习智能体群体学习的很多方面。尽管讨论这个领域已经超出了本书的范围，但是我们认为知道一些基本的概念与结果有助于思考在大脑中广泛分布的神经调节系统。在多智能体强化学习(以及博弈论)中，所有的智能体会尝试最大化一个同时收到的公共奖励信号，这种问题一般被称为合作游戏或者团队问题。

　　团队问题有趣且具有挑战性的原因是送往每个智能体的公共奖励信号评估了整个群体产生的模式，即评估整个团队成员的集体动作。这意味着每一个单独的智能体只有有限的能力来影响奖励信号，因为任何单个的智能体的贡献仅仅是由公共奖励信号评估的集体动作的一个部分。在这个情境下，有效的学习需要解决一个结构化功劳分配问题：哪些团队成员，或者哪组团队成员，值得获得对应于有利的奖励信号的功劳，或者受到对应于不利的奖励信号的惩罚？这是一个合作游戏，或者说是团队问题，因为这些智能体联合起来尝试增加同一个奖励信号：智能体之间是没有冲突的。竞争游戏的情境则是不同的。智能体收到不同的奖励信号，然后每一个奖励信号再一起评估群体的集体动作，且每一个智能体的目标是增加自己的奖励信号。在这种情况下，可能会出现有冲突的智能体，这意味着对于一些智能体有利的动作可能对其他智能体是有害的。甚至决定什么是最好的集体动作也是博弈论的一个重要问题。这种竞争的设定也可能与神经科学相关(例如，多巴胺神经元活动异质性的解释)，但是在这里我们只关注合作或者说团队配合的情况。

15.11 大脑中的基于模型的算法

　　对强化学习中无模型和基于模型的算法进行区分已经被证明对于研究动物的学习和决策过程是有用的。14.6节讨论了如何区分动物的习惯性行动与目标导向行为。上文讨论的关于大脑可能如何使用"行动器-评判器"算法的假说仅仅与动物的习惯性行为模式有关，这是因为基础的"行动器-评判器"算法是无模型的。那么怎样的神经机制负责产生目标导向的行为，又是如何与潜在的习惯性行为相互作用的呢？

　　使用功能性神经影像对人类的研究以及对非人灵长类动物的研究结果都支持类似的观点：大脑的不同结构分别对应于习惯性和目标导向的行为模式。

　　其他的研究确定了目标导向的活动与大脑前额叶皮质有关，这是涉及包括规划与决策在内的执行功能的额叶皮质的最前部分。具体涉及的部分是眶额皮质(OFC)，为前额叶皮质在眼睛上部的部分。

　　另一个涉及基于模型的行为的结构是海马体，它对记忆与空间导航非常重要。

　　一些发现直接揭示了海马体在规划过程中起到重要的作用，这里的“规划过程”就是指在进行决策时引入外部环境模型的过程。相关的研究发现解码海马体的神经元活动的实验，实验目的是确定在每个时刻海马体的活动所表示的空间范围。这些结果表明，海马体对于动物的环境模型的状态转移非常重要，而且它是用于模拟将来可能的状态序列以评估可能的动作方案的系统的一部分，这就是一种"规划"过程。

　　基于上述结果，产生了大量关于目标导向或基于模型学习和决策的潜在神经机制的研究文献，但是依然有很多问题没有被解答。

　　持续有神经科学研究指出，强化学习中无模型和基于模型的算法之间的区别，潜在地启发并增强了人们对大脑中习惯性和目标导向过程的理解。而对神经机制的更好的掌握，则可能会促使尚未在目标的计算强化学习理论中被探索的新型算法的产生，使得无模型和基于模型的算法特点可以结合在一起。

15.12 成瘾

　　了解药物滥用的神经基础是神经科学的高优先目标，并有可能为这一严重的公共健康问题提供新的治疗方法。

　　多巴胺活动的奖励预测误差假说及其与TD学习的联系是Redish (2004)提出的包括部分成瘾特征的模型的基础。基于对该模型的观察。可卡因和一些成瘾药物的使用会导致多巴胺的短暂增加。在模型中，这种多巴胺激增被认为是增加了TD误差，其中δ是不能被价值函数变化抵消的。

　　成瘾行为比Redish模型得出的结果要复杂得多，但该模型的主要思想可能显示了这个难题中的一个侧面。

15.13 本章小结

　　与大脑奖励系统相关的神经通路非常复杂并且至今没有被完全理解，但旨在理解这些通路及其在行为中的作用的神经科学研究正在迅速发展。本研究揭示了本书介绍的大脑奖励系统和强化学习理论之间惊人的对应关系。

　　多巴胺神经元活动的奖励预测误差假说是由这样一群科学家提出的：他们认识到了TD误差行为与产生多巴胺的神经元活动之间的惊人相似之处。多巴胺是哺乳动物中与奖励相关的学习和行为所必需的神经递质。在神经科学家Wolfram Schultz的实验室里进行的实验表明，多巴胺神经元会对具有大量突发性活动的奖励事件做出响应，称之为相位反应。而这种响应只有在动物不预期这些事件发生的情况下才会出现，这表明多巴胺神经元表示的是奖励预测的误差而不是奖励本身。此外，这些实验表示，当动物学习了如何根据先前的感官线索预测奖励事件时，多巴胺神经元的相位活动的发生会向较早的预测线索倾斜，而对于较晚的预测线索会减少。这与一个强化学习智能体学习预测奖励的过程中对TD误差进行的回溯计算类似。

　　其他一些实验结果严格地证明了多巴胺神经元相位活动是一种可以用于学习的强化信号，它通过大量产生多巴胺的神经元的轴突到达大脑的多个区域。这些结果与我们在前文所做的对两种信号的区分是一致的，一种是奖励信号R_t，另一种是强化信号，在大多数算法中就是TD误差δ_t。多巴胺神经元的相位反应是强化信号，而不是奖励信号。

　　一个重要的假说是：大脑实现了一个类似于"行动器-评判器"算法的东西。

　　行动器与评判器可以通过人工神经网络来实现，该网络由一系列类神经元单元组成，它们的学习规则基于13.5节中所描述的策略梯度"行动器-评判器"方法。

　　在"行动器-评判器"网络中，行动器单元的学习规则与奖励调节的脉冲时序依赖可塑性密切相关。

　　突触资格的概念和行动器学习规则中的基本特征都来自于Klopf关于"享乐主义神经元"的假设(Klopf, 1972, 1981)。

　　多巴胺系统的显著特征是释放多巴胺的神经纤维可以广泛地投射到大脑的多个部分。

　　无模型和基于模型的强化学习之间的区别可以帮助神经科学家研究习惯性和目标导向的学习和决策的神经基础。

　　强化学习理论也影响着对药物滥用的神经过程的思考。

　　本章只是浅显地讨论了与强化学习相关的神经科学是如何与计算机科学和工程的发展相互影响的。

参考文献和历史评注

posted on 2020-08-15 17:43 穷酸秀才大草包阅读(1178) 评论(0) 编辑收藏举报

刷新页面返回顶部

穷酸秀才大艹包

强化学习第2版第15章笔记——神经科学

导航

公告