Reinforcement Learning With Modulated Spike Timing-Dependent Synaptic Plasticity

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

JOURNAL OF NEUROPHYSIOLOGY, (2007)

 

Abstract

  脉冲时序依赖突触可塑性(STDP)已成为将突触前和突触后活动模式与突触强度变化联系起来的首选框架。尽管突触可塑性被广泛认为是学习的主要组成部分,但尚不清楚STDP本身如何作为通用学习的机制。另一方面,强化学习算法可以解决各种各样的问题,但缺乏实验确定的神经实现。在此,我们将这些范式结合在一个新模型中,其中STDP的修改版本实现了强化学习。我们分阶段构建此模型,确定使其工作所需的最小条件集。在两层前馈网络中使用STDP的性能调节修改,我们可以训练输出神经元以生成任意选择的脉冲序列或群体响应。此外,给定的网络可以学习对几种不同输入模式的不同响应。我们还详细描述了该模型如何在生物学上实现。因此,我们的模型提供了一种新颖且生物学合理的强化学习实现,能够训练神经群体以在突触输入和脉冲输出之间产生非常广泛的可能映射。

 

INTRODUCTION

  人们普遍认为突触可塑性至少是学习的神经生物学变化的一个组成部分,但仍远不清楚体外研究的突触可塑性形式究竟如何促进学习和记忆。一个早期的问题是,许多用于在体外诱导突触可塑性的方案,例如强直刺激(Andersen et al., 1977),难以转化为精确的可塑性规则。这使建模者在制定与实验数据"一致"的可塑性规则方面有很大的自由度,对于哪些规则可能准确地代表体内发生的过程留下了相当大的疑问。在过去几年中,已设计出用于在体外诱导突触可塑性的新方案,以更接近地模拟完整神经系统中可能发生的过程。脉冲时间依赖可塑性(STDP)是此类协议的一个突出示例。在STDP中,突触变化是通过反复配对突触前和突触后动作电位(AP)与精确控制的时间来诱导的。在等皮质和海马的谷氨酸能突触中,在突触前诱发的兴奋性突触后电位(EPSP)开始后到达的突触后AP诱导该突触的长期增强(LTP)(图1A),而在EPSP之前到达的AP诱导长期抑制症(LTD)(Bi and Poo 1998; Debanne et al. 1998; Feldman 2000; Froemke and Dan 2002; Markram et al. 1997)。尽管关于任意活动模式如何改变突触强度仍有许多待发现,但STDP可以相对直接地转化为适用于计算机建模的精确可塑性规则。

  基于STDP的可塑性规则已经用于描述某些学习类型的模型,包括预测学习(Abbott and Blum 1996; Blum and Abbott 1996; Rao and Sejnowski 2001; Roberts 1999),学习对相关输入做出响应(Gerstner et al. 1996; Gütig et al. 2003; Song and Abbott 2001; Song et al. 2000; van Rossum et al. 2000),突触后发放率稳定(Kempter et al. 1999, 2001; Tegnér and Kepecs 2002)、增强同步发放(Suri and Sejnowski 2002)和坐标变换(Davison and Frégnac 2006)。这些形式的学习和自组织虽然本身很有趣,但只涵盖了可能必须在神经系统内发生的适应性变化的一小部分。更具体地说,在某些情况下,神经群体必须学习输入的时空模式和输出的诱发模式之间的半任意映射。鸣禽的声乐学习可能是这类任务的一个例子,其中运动核必须将来自前运动核的模式化突触输入转化为再现导师歌曲的活动模式。在讨论中,我们解释了我们的模型如何作为歌曲学习的模型,以及它如何为皮质网络中依赖于基底神经节的学习建模提供起点。

  大多数基于STDP的学习模型都没有解决上面概述的一般问题,而且目前理解的STDP如何直接负责更一般的学习形式并不明显。解决此问题的一种灵活方法是强化学习,其中解决方案空间通常是随机探索的,学习是由简单的性能标量评估驱动的。强化学习模型通常是不基于显式神经建模的抽象算法(Sutton and Barto 1998),尽管这种情况开始发生变化(Izhikevich 2007; Pfister et al. 2006; Seung 2003; Xie and Seung 2004)。在此,我们通过对SDTP规则进行简单而新颖的修改,展示了一种通过生物学合理的神经网络实现的强化学习。在此处采用的最基本的方法中,与突触后脉冲的某些"目标模式"相对相似的脉冲模式伴随着STDP规则的正常运行,加强了促成该模式生成的突触,而 在与目标模式不同的脉冲序列后,STDP驱动的突触变化被抑制。解决方案空间的随机探索是由突触前活动的变化驱动的。我们在一个简单但生物学合理的前馈网络中评估这个基本思想,并确定使其工作所需的因素。

 

METHODS

Cellular model and network architecture

 

Implementation of baseline synaptic plasticity

  为了模拟突触可塑性,我们使用了Froemke and Dan (2002)描述的STDP规则,基于大鼠视觉皮层2/3层锥体细胞的记录。我们之所以选择这种特殊的STDP实现,是因为它的简单性,它检查整个脉冲序列的影响,而不仅仅是孤立的脉冲对,并且因为它适用于皮质突触的可塑性,这可能与我们感兴趣的学习有关。然而,对等皮质和海马中其他突触的STDP研究表明,控制突触可塑性诱导的因素存在显著差异。例如,在连接第5层锥体神经元对的突触处诱导LTP需要在视觉(Sjöström et al. 2001)和大鼠的体感(Markram et al. 1997)皮质中的更高频率配对(10 Hz),而Froemke and Dan (2002)可以在0.2 Hz的频率下诱导LTP。在海马体中,LTP的诱导需要更高的频率配对(5 Hz)和突触后细胞中的突发发放(Magee and Johnston 1997; Pike et al. 1999)。因为我们无法选择一个STDP模型来整合和巩固这些不同的发现,我们只是选择了其中一个,即Froemke and Dan (2002)的模型,因为我们的结果可能不适用于这种特定公式不准确的突触。另一方面,我们的模型确实需要对STDP进行调节或门控,这些条件当然不是Froemke and Dan (2002)公式的一部分。正如我们在讨论中所争论的那样,额外的诱导要求,例如突触后爆发的需要,可能会提供这种调节的机制。

  基于STDP的更改的基本规则(图1A)由下式给出:

(省略)

 

Reinforcement learning through modulation of synaptic plasticity

  最初,强化学习是通过为每个输出单元(代表训练的目标)选择"目标"脉冲序列来实现的,计算这些目标脉冲序列与网络实际输出之间的差异,并将该差异转换为调节突触可塑性的奖励信号。在当前试验中,作为时间 t 函数的神经元 j 的实际脉冲序列和目标脉冲序列之间的差异Δj(t)是通过将脉冲序列(由出现脉冲的1的时间序列表示,否则为0的时间序列)与单位高度和SD σ(通常为10 ms)的高斯,并从另一个中减去一个平滑的脉冲序列。奖励信号Rwd(Δj)为:

它将映射到区间(0, 1],Rwd(0)为1。尖括号表示所有输出神经元 j 的平均值。我们在所有模拟中使用α = 3。应该注意,如果实际输出和目标输出中的脉冲间隔明显大于平滑参数σ,就像我们的大多数模拟一样,则可以取的最大值Δ为~1,因此可能的最小奖励为e。有人希望最小奖励为0,可以将奖励重新定义为,但是因为学习性能并没有因为这个定义而得到质的改善,我们没有在本文中介绍的模拟中采用它。最初,STDP的奖励依赖调节是通过将突触强度的变化设置为奖励信号的乘积和未调节的STDP产生的变化来实现的。因此,对于由在时间 t 发生的输出单元 j 中的突触后脉冲触发的突触变化,

  然而,在大多数模拟中,我们为强化学习实施了时序差分算法的改编,其中自适应变化由收到的奖励和期望奖励之间的差异δR驱动(Sutton and Barto 1998)。在该算法的最一般实现中,系统的任务是采用一种策略,使其选择在当前环境状态s(n)下最大化其未来总奖励的动作,其中 n 是试验次数。它使用"价值函数"V[s(n)]来估计给定当前环境s(n)的未来奖励:V[s(n)] = E[Rwd(n) + γRwd(n+1) + γ2Rwd(n+2) + ···] ,其中E[Rwd(n)]是当前状态s(n)在系统当前策略下触发的动作所产生的期望奖励,γ 是一个"折扣因子"(0≤γ≤1),它将更小的权重分配给未来的期望奖励。用于改进当前策略的"时序差分误差"是实际奖励和由所选动作产生的更新的期望未来奖励之和减去采取该动作之前期望的总未来奖励:δR = Rwd(n) + γV[s(n+1)] - V[s(n)](Sutton and Barto 1998)。

  将我们的模型翻译成时序差分算法的语言,环境状态s(n)是在试验 n 上呈现的输入模式,"策略"由突触强度决定,选择的动作是一组输出脉冲序列。我们的模型构成了一种特殊情况,其中未来状态 s 独立于所选择的动作,因此唯一可能的奖励预测是给定网络当前"策略"的平均奖励。因此。在我们的模型中,"环境状态" s (输入单元提供的脉冲序列)和"选择的动作"(输出单元生成的脉冲序列)都是试验中时间 t 的函数。因此,奖励、平均奖励和时序差分误差都是试验中时间的函数:。理想情况下,是在固定"策略"(固定突触强度)下获得的奖励,这是多次试验的平均值。因为每次试验的突触强度都会发生变化,所以这个理想是无法实现的,而是最近收到的奖励的运行平均值。在每次试验结束时,在计算出δR(t)之后,更新如下:

重要的是要记住,这种平均是在试验次数 n 上进行的,而不是在试验时间 t 上进行的,因此"平均奖励"仍然是试验时间的函数。

  为了在我们的模型中使用时序差分误差来驱动学习,我们只需将未调节STDP规则的突触变化乘以δR(t)而不是Rwd(t):

因为R(t)可以是负数,所以这个学习规则允许抗赫布突触可塑性,其中前-后配对诱导LTD,而后-前配对产生LTP。不难想象以前触发LTP的活动模式改为诱导LTD的情况(见结果),但我们认为将LTD转换为LTP不太合理。出于这个原因,公式3适用于以下例外:如果δR < 0和F(Δtij) < 0,则Δgij = 0。

(省略)

 

RESULTS

 

Unmodulated STDP destabilizes established mappings between spatiotemporal patterns of input and output activity

 

Simplest implementation of STDP-driven reinforcement learning is only partially successful

 

Inclusion of activity-dependent synaptic scaling and anti-Hebbian STDP enables accurate reinforcement learning

 

Model performance is sensitive to the width of gaussians used to smooth spike trains

 

Learning arbitrary spike trains

 

Learning in networks with multiple output neurons

 

Model performance with simplified versions of the STDP rule

 

DISCUSSION

 

Biological implementation of the model

 

Reward-modulated STDP as a model for song learning in oscine birds

 

posted on 2022-04-13 22:23  穷酸秀才大草包  阅读(191)  评论(0编辑  收藏  举报

导航