知识增强深度学习及其应用:综述《Knowledge-augmented Deep Learning and Its Applications: A Survey》(上)
今天是2023年2月7日,寒假。
综述是小老板1月11日发我的,一直没看,当时打开就关上了,20页,不想看。
今天来看一下,明天要开会了。
论文:Knowledge-augmented Deep Learning and Its Applications: A Survey
GitHub:
arXiv上的论文。
(现在是15:27)
(Sorry,现在是17:15,搞了一堆乱七八糟的事情.)
(emnnnn,2月17日开例会之前十分钟看了一些,然后就没然后了,然后现在是2月22日,打算看一下,为什么呢?因为明天要开例会了...)
(现在是16:50)
(里面的符号啥的可能不对,比如下标或者是头顶的帽子标记,大概看看就可以了,有的也翻译的不行,因为我是用翻译器翻的)
摘要
深度学习模型虽然在过去几年中在许多不同的领域取得了巨大的成功,但通常都需要数据,在未见过的样本上不能有好的表现,并且缺乏可解释性。在目标领域通常存在各种先验知识,使用这些知识可以缓解深度学习的不足之处。为了更好地模仿人类大脑的行为,人们提出了不同的先进方法来识别领域知识,并将其整合到深度模型中,以实现数据高效、可推广和可解释的深度学习,我们将其称为知识增强的深度学习(KADL)。在这项调查中,我们定义了KADL的概念,并介绍了其三个主要任务,即知识识别、知识表示和知识整合。与现有的专注于特定类型的知识的调查不同,我们提供了一个广泛而完整的领域知识及其表示方法的分类法。基于我们的分类法,我们对现有的技术进行了系统的回顾,这与现有的调查与知识分类无关的集成方法的工作不同。这项调查涵盖了现有的工作,并提供了一个关于知识增强的深度学习一般领域的研究的鸟瞰图。对许多论文的全面和批判性的评论不仅有助于了解当前的进展,而且还能确定知识增强的深度学习研究的未来方向。
1 介绍
尽管现有的深度模型在各个领域取得了令人印象深刻的性能,但它们仍存在一些严重的缺陷,包括数据依赖性高和泛化能力差[1]。这些缺陷主要源于模型的数据驱动性质及其无法有效利用领域知识。为了解决这些局限性,一种知识增强的深度学习范式开始吸引研究人员的注意力,通过该范式,领域知识和可观察数据协同工作,产生数据高效、可推广和可解释的深度学习算法。真实世界领域知识丰富。在深度学习的背景下,领域知识主要来自两个方面:目标知识和测量知识。目标知识控制着我们打算预测的目标变量的行为和属性,而测量知识控制着产生目标变量观测数据的潜在机制。基于其表示,我们建议将深度学习中探索的领域知识分为两类:科学知识和经验知识。科学知识代表了管理目标变量财产或行为的领域中公认的定律或理论。相比之下,经验知识是指从长期观察中提取的众所周知的事实或规则,也可以通过人类的推理来推断。
认识到当前深度学习的不足,最近人们越来越感兴趣地将先验知识捕获并编码到深度学习中。两种主流技术是神经-符号集成和基于物理的深度学习。神经符号集成模型专注于将经验知识编码到传统的符号人工智能模型中,并将符号模型与深度学习模型集成。基于物理的深度学习侧重于将各种理论物理知识编码到深度学习的不同阶段。目前这一领域的调查论文范围有限,因为它们专注于回顾神经符号模型或物理信息机器学习方法,而忽略了许多其他相关工作。具体而言,现有的神经符号模型调查主要包括对逻辑规则或知识图的讨论,以及它们与深度模型的集成[2],[3]。然而,现有的基于物理的机器学习调查仅限于特定的科学学科,集成方法通常是特定于任务的,例如物理[4]、[5]、网络物理系统[6]、几何[7]和化学[8]。因此,这些调查侧重于在实验室环境下解决科学问题的方法,缺乏对实际应用的讨论。为了解决这一局限性,我们对现有的知识增强深度学习工作进行了全面而系统的回顾。我们调查的贡献有三个方面:
- 这项调查创建了一个关于领域知识的新分类法,包括科学知识和经验知识。我们的工作涵盖了现有的专注于特定学科领域知识子集的工作[4]-[8]。
- 这项调查涵盖了广泛的知识表示和整合的方法,并进行了系统的分类。它与现有的关于一般集成技术的调查不同,后者对领域知识的分类是不可知的[9]-[13]。
- 本调查涵盖了不仅用于解决实验室环境下的科学问题,而且更重要的是用于现实世界的应用任务的方法学。本调查不局限于特定的应用任务,涉及从计算机视觉到自然语言处理的任务。因此,我们的调查不仅对深度学习研究者感兴趣,也对不同领域的深度学习从业者感兴趣。
我们的调查安排如下。我们在第二节中首先介绍了KADL的概念,在此我们定义了三个基本任务(即知识识别、知识表示和知识集成)。然后,我们回顾了KADL方法,其中我们根据关注的领域知识对不同的技术进行了分类:1)第三节中的科学知识深度学习,2)第四节中的经验知识深度学习。表一概述了知识增强深度学习的现有方法。
2 知识增强的深度学习
知识增强的深度学习的主要任务包括知识识别、知识表示和将知识集成到深度模型中。在下面的部分中,我们将详细介绍每个主要任务。
A 知识识别
知识识别涉及识别特定任务的领域知识。对于某些任务,领域知识很容易获得,因此很容易识别,而在其他任务中,知识不那么直接,需要领域专家努力识别。在本调查中,我们将领域知识分为科学知识和经验知识。科学知识是规定性的,主要指制定良好的数学理论或物理定律。这些定律通过科学实验得到了广泛的验证,并且在通用环境中是正确的(例如牛顿定律)。这些定律明确定义了系统中涉及的不同变量之间的确定性关系。最近在物理信息机器学习方面的工作试图利用来自不同学科的各种科学知识来增强深度学习。经验知识是描述性的,主要指日常生活中众所周知的事实,表示一个实体的语义财产或多个实体之间的语义关系。经验知识通常是从长期观察中提取的,但也可以从成熟的研究或理论中获得。后一类经验知识以科学为基础,侧重于语义和抽象层面的描述。经验知识通常包含大量零散的信息,并且可能是不确定的、不精确的或模棱两可的。最近在神经符号模型方面的工作集中在将经验知识嵌入深度学习中。
(emnnnn,现在是19:39)
B 知识表示
知识表示涉及以良好组织和结构化的格式表示所识别的领域知识。适当的表示取决于领域知识的类型。科学知识通常用方程式表示。此外,模拟引擎也被认为是科学知识的替代表示。与科学知识相比,经验知识不那么正式。经验知识可以通过概率关系、逻辑规则或知识图来表示。
C 知识集成
知识集成需要将领域知识集成到深度模型中。通过集成,深度模型可以为某些任务利用现有数据集和领域知识。根据知识的类型,可以采用不同的集成方法,并可以分为四个级别:数据级、架构级、训练级和决策级,如图1所示。数据级集成侧重于通过用基于知识生成的伪数据扩充原始训练数据来集成知识。架构级集成通过修改神经网络体系结构来嵌入知识。训练级集成通过从知识中导出的正则化项或主要损失项来正则化深度模型的训练。最后,决策级集成将来自先前模型的自上而下的预测与来自深度模型的自下而上的预测相结合,从而在先前模型中编码的知识有助于细化深度学习管道的预测。
每种类型的集成都可以从不同方面受益。数据级集成可以帮助缓解许多深度模型所面临的数据匮乏问题[56]–[59]。此外,与人工注释相比,通过自动模拟生成数据通常成本更低。架构级集成带来了使深度模型可解释和可解释的好处,这是值得信赖的人工智能的两个关键因素[85]。由于其直截了当,训练级整合可以被视为最常见的方法。它可以灵活地应用于不同的深度模型框架。训练水平整合的灵活性也促进了知识不确定性的量化[45],[53]–[55]。与前三种方法不同的是,决策层集成采用了独立于深度模型训练的知识,现有工作对其的探索相对较少。
3 用科学知识进行深度学习
深度学习模型在传统上由机械(例如,第一原理)模型主导的先进科学和工程领域越来越重要。这些模型对于专家不太了解其发生机制的科学问题或精确解在计算上不可行的问题产生了特别有前途的性能。然而,现有的深度学习需要大量带注释的数据,并且很难将其推广到新的数据或设置。
关于将科学和工程中的传统方法与现有数据驱动的深度模型相结合,研究界越来越达成共识。科学知识的深度学习探索了经典机械模型和现代深度模型之间的连续体。机器学习界一直在努力将科学知识融入深度学习(也称为基于物理的机器学习),以生成物理上一致且可解释的预测,并减少数据依赖性。
在下文中,我们首先确定科学知识的类型及其表示。然后,我们介绍了将科学知识与深度模型相结合的不同方法。
A 科学知识识别
科学知识是指经过广泛科学实验验证的公式化的数学或物理方程,在通用环境中是正确的(如牛顿定律)。这些定律明确定义了系统中涉及的不同对象之间的确定性和精确关系。
当前物理学知识的深度学习寻求探索经典力学模型的使用。对于一个动态系统,最广泛考虑的科学知识是牛顿力学,包括运动学和动力学。前者指可观测运动(如运动轨迹),通常用涉及可测量财产(如速度、加速度或位置)的多项式方程表示。运动学研究运动而不考虑原因。相反,动力学研究运动的原因,其中偏微分方程(PDE)用于捕捉力和可测量财产之间的关系。现有的工作探索了动力学在各种物理系统中的应用(例如,气体和流体动力学[86]和蛋白质分子动力学[87],[88])。通过对动力学的理解,可以更好地预测运动学。
因此,牛顿力学已被应用于现实世界,如人体行为分析[29],[89],[90]。不幸的是,牛顿力学可能导致难以求解的运动方程,即使对于看似简单的系统(例如,双摆系统)也是如此。相反,可以考虑拉格朗日力学或哈密顿力学。作为牛顿力学的重新表述,拉格朗日力学和哈密顿力学都利用了广义坐标,使得它们在理解系统时可以灵活地使用哪个坐标。在拉格朗日力学中,L被定义为系统的动能T和势能U之间的差值(即,L=T−U)。哈密顿量H类似于拉格朗日量L,定义为系统的动能T和势能U的总和(即H=T+U)。在拉格朗日力学中,位置˙x的时间导数被认为是广义动量,而在哈密顿力学中,动量p被考虑。对于简单的粒子系统,这种差异是微不足道的,而在更复杂的系统(例如磁场)中,动量不再能够被计算为质量和速度的简单乘积。Lagrangian系统和Hamilton系统的动力学方程随着时间的推移通过保守力保存能量。
对称性在物理学中也得到了广泛的探索。菲利普·安德森(Philip Anderson)提出了一个著名的论点:“说物理学是研究对称性的,只是稍微夸大了一点”[91]。发现对称性被证明对加深对物理学的理解和增强机器学习算法都很重要。等变函数或不变函数保持对称性,并且经常被用于将这些对称性结合到深度学习算法中。
光学,另一种物理知识,也被考虑。光学研究光的行为和财产。费马原理[92]是光学中的基本定律。此外,照明模型[93]和渲染方程[94]捕捉3D对象外观及其图像外观。现有工作探索了不同计算机视觉任务[95]、[96]和计算机图形任务[97]–[99]中各种照明模型的使用。
除了物理知识外,还考虑了数学理论,如关于现有算法的定理(例如排序或排序)以及连续松弛[100]。投影几何理论[101]广泛应用于各种计算机视觉任务。
B 科学知识的表示
科学知识通常表示为方程,例如微分方程。科学知识的另一个重要表示工具是模拟。模拟模拟真实世界的物理系统,并被视为控制真实世界物理系统的物理原理的替代表示。我们在图2中可视化了科学知识的分类及其表示。
1) 数学方程:方程可以包括多项式方程、微分方程和积分方程,其中微分方程被现有的工作广泛探索。动态规律通常由偏微分方程表示,它表示不同变量之间的确定性关系。通常,PDE的形式
其中X={x1,x2,…,xN}是系统中涉及的N个变量。Nx是一般微分算子,Bx是边界条件算子。D表示一个物理域,Γ=ξD表示该域的边界。λ(x)表示PDE中涉及的物理参数。对于简单系统,物理参数是常数(即λ(x)=λ)。f(x)是强迫项,b(x)指定边界条件,例如达西流问题的Dirichlet边界条件[54]。u(x)是给定给定边界条件的微分方程的解。当只有一个变量时,这些方程变为常微分方程(ODE)。当项(例如,物理参数λ)存在于经历随机过程的微分方程中时,该方程变为随机微分方程(SDE)。SDE的一般形式类似于标准微分方程,除了随机事件ω:
物理参数λ(x; ω)和强迫项f(x; ω)被建模为随机过程,因此解决方案u(x; ω)遵循f和λ指定的随机过程。
微分方程描述了一个系统随时间的演变,当我们明确地将其中一个变量设置为对应于时间t时,这通常发生在不同的动态系统中。例如,欧拉-拉格朗日方程定义了拉格朗日系统的动力学,
它连接了拉格朗日L相对于广义坐标x、时间t和广义动量˙x中位置的导数。现有的工作已经对微分方程进行了广泛的探索,如牛顿第二定律[16]、[34]、气体和流体动力学中出现的Burgers方程[86]、哈密顿动力学中的Hamilton方程[25]、拉格朗日动力学中的欧拉-拉格朗日方程[102]以及描述用于大气对流的非线性混沌系统的Lorenz方程[103]。
光的定律也用方程式表示。费马原理考虑光路上的积分。在[97]中,瞬态成像系统中的瞬态I通过积分表征为
其中τ是行进路径长度,v是可见点。A(p,q)测量表面的单位面积,函数f吸收反射率和阴影。还考虑了表示为积分方程的渲染方程[104]。还考虑了等式代数方程。根据反射定律,具有反射的图像I是玻璃反射后场景R和玻璃透射前场景T的总和,即,
这种等式代数方程被证明有助于反射消除任务[98]。另一个例子是马卢斯定律,用代数方程表示,它定义了极化效应[99]。
2) 模拟引擎:除了用方程明确表示物理定律之外,通过引擎进行模拟是另一种表示方法。模拟模拟了受物理定律支配的真实物理系统,因此被认为是知识的替代表示。物理引擎主要编码物理系统的控制动力学定律,如刚体、柔体和流体。它通过求解运动方程,根据力计算物体的加速度、速度和位移。具体而言,物理引擎模拟给定特定原因的可观察运动学,遵循控制动力学规则。为了模拟给定特定力的刚体物体的运动序列,考虑了物理引擎[36],[61],[62],[105]–[107]。这些模拟器中的大多数是不可区分的,因此禁止在端到端深度学习框架中使用。也存在为机器人操纵编码运动学定律的模拟引擎。然而,这些逆引擎使用运动学方程来估计控制动作,从而可以达到所需的位置,不受潜在动力学规律的影响[35]。还探索了图形引擎。图形引擎对原则性投影和照明模型进行编码,并通过遵循控制原则来呈现真实的2D观察结果。例如,提出了一种由反射定律控制的引擎,用于生成忠实的图像渲染[98]。
C 深度模型集成
为了将特定领域的科学知识集成到深度模型中,现有方法可以分为三类:数据级、架构级和训练级集成,如图1所示。科学知识很少考虑决策级集成。下面我们回顾使用这些方法将科学知识整合到深度模型中的方法。
1) 数据级集成:利用领域知识的一种方法是用从传统机械模型合成的数据训练深度模型。捕获领域知识的基于物理的机械模型用作模拟器,并用于生成合成数据。模拟数据可以与真实数据相结合以联合训练模型,也可以单独使用以通过自我监督学习来预训练模型。
模拟数据已广泛用于整个训练,无需额外的真实训练数据。在计算机视觉中,Mottaghi等人[62]提出,在给定静态2D图像的情况下,通过预测查询对象在3D空间中的长期运动作为对力的响应,来理解作用在查询对象上的力。其过程概述如图3所示。由物理和图形引擎组成的Blender1游戏引擎用于模拟。具体而言,物理引擎将场景配置作为输入(例如,在幻灯片上滑动的球),并根据从牛顿第二定律导出的运动方程及时向前模拟场景,以产生不同的牛顿场景。物理参数(例如,力大小)被随机采样。对于每个牛顿场景,图形引擎在透视投影中的不同视点下渲染来自合成3D世界的2D视频。总共有66个与12个可能的物理生成场景相对应的合成视频用于训练。同样,为了更好地理解2D视频中人类与物体的互动,Ehsani等人[61]提出了通过从视频中推断接触点和力来物理理解动作。正向物理模拟应用于监督力估计,给出观察到的视频,而不需要GT力标签。特别是,通过牛顿第二定律控制的物理模拟,在给定估计力的时间段内估计运动物体的3D接触点。然后应用投影算子,将估计的3D关键点变换到2D空间中。通过最小化估计的2D接触点和观察到的2D接触点随时间的差异,获得了物理上一致的力。为了执行可微物理模拟,使用PyBullet2模拟器将有限差分法应用于梯度计算,该模拟器专注于遵循牛顿第二定律的刚体模拟。同样,Tobin等人[63]展示了机器人模拟生成的合成样本对训练对象定位任务的深度模型的有效性,这在机器人操作中很重要。通过使用MuJoCo物理引擎3进行模拟,从而基于其内置的图形引擎生成模拟2D图像[108]。特别是,MuJoCo物理引擎是基于牛顿力学构建的。内置图形引擎通过透视投影在3D虚拟环境中呈现给定选定相机的2D图像。为了确保足够的仿真可变性,提出了一种域随机化策略,其中仿真参数(例如对象的位置和方向)在仿真过程中都是随机指定的。
深度模型训练通常从预训练阶段开始,然后进行微调。现有研究还表明,预训练会影响深度模型的最终性能,这主要是因为预训练不佳会导致模型陷入局部最优。通过模拟数据进行预训练已表明有助于改善参数的初始化。Jia等人[56],[57]引入了物理引导的递归神经网络(PGRNN)来模拟湖泊温度动态。PGRNN基于基于物理的机械模拟器生成的合成数据进行预训练,然后利用一些观测数据进行微调。该模拟器通过PDE将湖泊温度动态建模为物理参数(例如,水质清澈度和防风)的函数。结果表明,即使使用一组不完善的物理参数生成的合成数据,PGRNN仍能获得具有竞争力的性能。这样的想法也在工程学科中得到了探索。在机器人方面,Bousmalis等人[58]表明,通过物理引导的初始化,精确抓取物体所需的观测数据显著减少(减少了50倍)。在自动驾驶中,Shah等人[59]使用内置物理定律的游戏引擎上的拟议模拟器生成的合成样本对驾驶算法进行了预训练。特别地,模拟器包括车辆模型和物理引擎。为了描述虚拟3D环境,物理参数(如重力、空气密度、空气压力和磁场)是手动指定的。利用这些指定的参数,物理引擎通过遵循从牛顿第二定律导出的运动方程,预测从车辆模型估计的运动状态、给定的力和扭矩。这项工作表明,通过模拟样本的预训练,可以大大减少驱动算法的数据需求。除了通过物理引擎模拟来增加数据外,还可以从数学方程中生成合成数据[14]。
2) 架构级集成:领域知识也可以通过神经网络架构的定制设计进行集成。架构级集成可以通过以下方式实现:1)引入特定的物理有意义的变量或神经网络参数,2)引入从领域知识导出的层,以及3)引入神经元之间的物理连接。我们在下面介绍每种类型的方法。
a) 通过变量或参数集成:将物理原理嵌入神经网络架构的一种方法是在神经网络中引入物理上有意义的变量。该变量可以是神经网络的输出节点。加强能量守恒的哈密顿函数已经引起了很多关注[24],[25],[30],[31]。物理学中的哈密顿算符是建模具有守恒量的动态系统的主要工具。在哈密顿力学中,经典物理系统由广义坐标q和共轭动量p来描述。哈密顿H然后计算系统的总能量。定义系统动力学的哈密顿方程如下:
受哈密顿力学的启发,提出了一种哈密顿神经网络(HNN),其中输出表示哈密顿动力学,通过该网络可以明确地实现能量守恒[24]。传统NN和HNN之间的区别很容易理解,如图4所示,这表明传统NN学习预测粒子轨迹,而HNN学习粒子的哈密顿量,据此可以预测轨迹。Choudhary等人[25]后来表明,HNN通过加强总能量守恒,可以更好地处理混沌系统中的高度非线性动力学。为了证明哈密顿形式的实际重要性,哈密顿功能性被纳入生成网络,在该网络中,哈密顿动力学是从没有域坐标假设(如图像)的2D观察中学习的。提出的哈密顿生成网络已应用于密度估计,导致神经哈密顿流[24]。通过利用哈密顿形式,总概率可以很容易地守恒,而密度模型仍然具有表现力。与HNN共享类似的想法,在拉格朗日神经网络(LNN)[32],[33]中探索了采用拉格朗日力学的广义能量守恒,其中LNN的输出是拉格朗日动力学。然而,对所有这些现有拟议模型的评估仍然是概念性的,在实践中没有实际应用[38]。
变量也可以是神经网络中的中间变量。Jaques等人[16]提出了一种称为牛顿变分自动编码器(NewtonianVAE)的潜在动力学学习框架。受牛顿第二定律的启发,定义了隐藏空间中的线性动力学系统,特别是通过考虑具有D自由度的刚体系统,并通过一组坐标x∈RD对该系统的配置进行建模。其动力学定义为:
其中u是给定的致动。为了将上述动力学方程合并到VAE中,位置x被视为随机变量,速度v是中间变量。具体而言,速度计算为vt=x−xt−1/∆t与时间间隔∆t。给定的xt的条件分布现在变成
其中A、B和C通过神经网络f来估计,神经网络f的输入包括当前系统状态(即,{xt,vt,ut})。牛顿VAE然后输出给定估计x的2D图像。这与现有方法形成对比,现有方法简单地假设p(xt | xt−1,ut−1)上的高斯分布,而不考虑位置、力和速度之间的潜在确定性关系,如等式(8)所示。类似地,为了结合由平流扩散PDE控制的传输动力学背后的物理,Liu等人[15]提出了一种基于自动编码器的学习框架,其中明确纳入了平流扩散方程。编码器的两个隐藏变量输出具有物理意义,分别表示平流扩散方程内的速度场和扩散场。为了模拟湖泊温度,Daw等人[17]为提出的保持单调性的长短期记忆(LSTM)架构引入了一个物理上有意义的中间变量。具体而言,密度值作为LSTM的中间变量,随着深度的增加而单调增加,这是湖泊温度的一个重要特征。在模拟运动流体中作用于每个粒子的阻力时,也应用了类似的想法[18]。Muralidhar等人[18]提出了一种PhyNet,其中物理约束的中间变量被引入卷积神经网络(CNN)架构。具体而言,分别表征速度场和压力场的两个中间变量被引入到CNN中用于阻力预测。
除了引入物理上有意义的变量之外,另一种方法是将一些神经网络参数直接映射到物理上有含义的参数。这些物理参数可以在训练期间不可修改,也可以通过从观察中学习来微调。在地球物理学中,神经网络已被用于模拟地震波形反演的动态过程[23]。为了模拟地震波传播,提出了一种理论指导的递归神经网络(RNN);RNN被专门设计用于求解控制微分方程,其中一些参数被指定为控制物理方程中的物理参数。特别是,给定在时域中离散的波动方程,下一时间步(即u(t+∆t))的波场根据前两个时间步(如u(t)和u(t-∆t)
其中,2是空间拉普拉斯算子,r代表位置,s是源函数。给定u(r,t)和u(r、t−∆t),通过神经网络直接进行u(r)t+∆t的符号计算,其可训练参数对应于波动方程方程(9)中的物理参数v2∆t2。
b) 通过层集成:通常通过神经网络层集成的最具代表性的知识类型涉及对称性。对称通常指一组可逆变换g,例如平移、旋转或缩放。
等方差和不变性作为对称性的代表性类型已被广泛考虑。不变函数是这样一种映射,即输出空间不受输入空间中对称变换的影响,而等变函数放松不变函数。它声明了一个映射,使得输入空间中的对称性可以在输出空间中保持。数学上,假设一个对称变换g和一个函数F,从X到Y的映射,那么如果F与g相等
输入空间X上的对称变换g在输出空间Y上保持不变。如果
换句话说,输出y=F(x)不受作用于输入空间x的对称变换g的影响。不变性可以是等变的特殊情况,反之亦然。例如,变换g是一个标识变换,g·F(x)=F(x)。
等变或不变神经网络被设计为保持对称性。在计算机视觉中探索了光照不变性特征[47],其中知识引导卷积层被结合到现有的深度模型中。考虑昼夜域自适应问题,从源域到目标域的照明变化会导致分布偏移。为了解决分布偏移问题,需要对光照保持不变的特征,这可以从Kubelka-Munk理论得到。KubelkaMunk理论[109]通过定义从观察方向的物体反射的光的光谱来模拟材料反射。Kubelka-Munk理论定义的照明不变特征的计算是通过提出的颜色不变卷积(CIConv)层直接实现的,如图5所示。类似地,在湍流建模中,旋转不变性表示流体流的物理性质不取决于观察者坐标的方向,而是一个基本的物理原理。为了将旋转不变性嵌入到神经网络中,Ling等人[41]定义了张量基神经网络(TBNN),其中通过添加更高阶乘法层来修改NN架构。特别地,TBNN具有一个接受张量基的附加输入层,其最后一个隐藏层使用该张量基输入层执行成对乘法以提供输出。修改后的体系结构确保预测基于旋转不变的张量。通过结合旋转不变性,TBNN在预测归一化雷诺应力各向异性张量方面实现了更高的精度。在分子动力学应用中,Anderson等人[46]提出了一种称为Cormorant的旋转不变神经网络,通过该网络可以学习复杂多体物理系统的行为和财产。鸬鹚中的每个神经元都明确地对应于一个原子子集。给定特定的神经元,激活层被确保与旋转共变,使得所提出的鸬鹚被保证是旋转不变的。
还探讨了等方差。Wang等人[39]表明,现有的时空深度模型可以通过通过等变函数合并对称性来提高泛化能力。更具体地说,他们考虑四种类型的等变:时间和空间平移等变、旋转等变、均匀运动等变和尺度等变。使用定制的等变层将这些对称性合并到神经网络中。通过层的等变函数的组合,网络变得等变。
LTRN(yGT,yPred)表示给定预测yPred和地面真相标签yGT的标准训练损失。对于分类任务,LTRN(yGT,yPred)通常基于交叉熵损失来定义。基于物理的正则化项LPHY(yPred;x)对应于物理约束,具有可调整的重要系数λ。当基于物理的约束独立于输入x时,正则化项被简化为LPHY(yPred)。通过LPHY(yPred;x),培训被引导为生成具有物理一致输出的模型。基于物理的正则化LPHY(yPred;x)的计算不需要观察值的注释,因此允许将未标记的数据包括在训练中,从而减少对数据的依赖性。基于物理的正则化LPHY(yPred;x)也可以直接用于以无标签的方式训练深度模型。
LPHY(yPred;x)可以是显式的,也可以是隐式的,可以在不同的深度学习框架中灵活使用。显式正则化直接定义在基于领域知识的深度模型的输出上,而隐式正则化由嵌入深度学习管道中的基于物理的模型引起。在下文中,我们介绍了两种可区分的深度模型框架下的知识引导模型正则化:区分性深度模型和生成性深度模型。
a) 有区别的深度模型的正则化:具有科学知识的模型正则化在有区别的深层模型中广泛可见。在气候建模的背景下,从物理系统应满足的守恒定律导出的约束被编码为正则化项。特别地,NN,f将输入x映射到输出y(即,y=f(x))。守恒约束C概括为线性系统,其中C是给定的约束矩阵。然后将这些物理约束编码为NN输出上的正则化项:
评估结果表明,通过添加这种物理引导的正则化,模拟云过程的预测性能得到了改善[19],[20]。类似地,Zhang等人[21]提出通过NN将原子能参数化用于分子动力学,其损失函数考虑了动能和势能守恒。还考虑了具有非保守力的物理系统的正则化[22]。在具有摩擦的双摆系统中,由于摩擦的存在,系统的总能量正在减少。能量的减少被表示为约束E(xt+1)<E(xt),其中E(xt)和E(xt+1)分别表示系统在当前时间步长和未来时间步长的总能量。考虑到神经网络以当前时间步长(即xt)的状态为输入,并在下一时间步长(如y:=xt+1)输出估计状态,约束可以通过正则化项集成到神经网络中,如下
其中E(xt)和E(y)分别计算当前和下一时间步长处的系统能量。根据能量的减少,E(y)预计小于E(xt),导致上述约束。类似地,[26]中考虑了动态系统的一组常见物理财产,其中每个物理财产都表示为等式或不等式约束。然后,通过增强拉格朗日方法将这些物理信息约束作为正则化纳入深度模型。
PDE(如等式(1)中所述)已被广泛认为是约束条件,并作为正则化项集成到深度模型中。提出了一种物理通知神经网络(PINN)[27],用于通过利用神经网络解决偏微分方程。PINN通过使用观测到的数据和偏微分方程来学习解u,偏微分方程作为感应偏置。以粘性Burgers方程为例[28]:
在PINN中,前馈NN通过将位置x和时间t作为输入来预测PDE解~u。目标函数由数据丢失项和PDE残差组成,
其中Ldata测量预测PDE解~u和给定u在特定位置和时间步长(即Ldata= PN数据i=1(u(xi,ti)−ui)2)。LPDE测量位置和时间步长下预测解~u的PDE残差:
偏导数是通过给定预测解的数值估计器计算的。分别收集PDE残差的数据点{(xi,ti)}Ndata数据丢失和{(xj,tj)}NPDE j=1 i=1。λ是正则化项的系数。在PINN中,通过测量解残差来约束模型参数,PDE被直接编码为正则化项。在人体姿态估计的背景下,使用物理力学来确保物理上合理的估计,其中导出了表示为ODE的欧拉-拉格朗日方程,并将其编码为模型正则化的软约束。通过将欧拉-拉格朗日方程集成到数据驱动的深度模型中,确保估计的3D身体姿势在物理上合理[29]。
源自领域知识的物理引导函数已用于以无标签方式训练深度模型。Stewart和Ermon[34]提出了用物理方程对神经网络进行无标签监督。本文的目标是通过指定约束g来监督NNs,约束g应保持在输出空间f上,而不是使用标签。然后损失函数变为
其中R(f)是指惩罚模型复杂性的附加正则化项。本文中提供的一个示例是跟踪执行自由落体的物体。回归网络的训练被公式化为在N个图像序列(即,(RH×W×3)N)上操作的结构化预测问题→ RN)。牛顿第二重力定律(自由落体运动)表示为代数方程,并直接纳入损失函数中进行训练。特别是,对于自由下落的物体,其在第i个时间步长(时间间隔∆t)的高度计算为yi=y0+v0(i∆t+a(i∆t)2,其中y0和v0为初始高度和速度。
并且a=[a△t2,a(2△t) 2。。。,a(N△t) 2],a=−9.8m/s2。此外,基于成熟算法导出的算法监督已用于训练神经网络,从而不再需要来自地面真相注释的直接监督[100]。
对于以上讨论的所有相关工作,一般知识和数据信息之间的相对重要性由训练目标的设计预先定义,并且在训练后不可调整。然而,相对重要性可能因投入的不同而不同。例如,给定一个看不见的输入,基于数据的预测不太可靠,知识在最终预测中扮演着更重要的角色。Seo等人[22]提出了一种框架,其中通过控制参数α来调整通用知识相对于数据信息的相对重要性。假设控制参数α是遵循预定义分布p(α)的随机变量。从输入数据x中提取的两组潜在表示zr和zd分别对应于一般知识和数据信息。最终的潜在特征以z=αzr(1−α)zd的形式获得,并用于生成最终预测。基于一般知识和下游任务的注释,分别定义了两组损失Lrules和Ldata。作为输入x和输出y的函数的Lrules测量基于特定于目标下游任务的先验知识导出的规则的违反(例如,等式14)。最终训练损失计算为p(α)上的预期损失,
其中ρ是平衡两个损失项单位的比例参数。通过所提出的框架,表示相对重要性的α在测试期间成为一个变量。
上面讨论的物理引导正则化项都是在深度模型的输出空间上明确定义的。物理引导的正则化项也可以是隐式的(即,由嵌入神经网络管道的一个中间原语的基于物理的模型诱导)[35]–[37]。例如,Wu等人[36]构建了一个无需人类注释就能理解物理场景的系统。该系统的核心是物理世界表示,它首先由感知模块恢复,然后由模拟引擎使用。感知模块是一个深度神经网络,无需注释即可自我监督。模拟引擎由物理引擎和图形引擎组成,旨在生成物理预测。如图6所示,在合成台球台实验中对拟建管道进行了评估。给定由感知模型提取的特征,物理引擎通过遵循运动方程来预测系统的未来物理状态,并且图形引擎在给定预测的物理状态的情况下渲染RGB图像。通过最大化给定观察序列的估计RGB图像的可能性来学习感知模型。
b) 生成性深度模型的正则化:除了区分模型之外,知识也被应用于深度生成模型。为了产生现实的结果,不同的生成模型探索了领域知识的使用。例如,为了有效地使用生成对抗网络(GAN)来生成PDE控制的复杂系统的解,Wu等人[44]提出了一种统计约束GAN,其中导出了统计正则化项,分别测量训练样本和生成样本的协方差结构之间的距离,
其中D和G分别表示标准鉴别器和生成器,L(D,G)表示GAN的标准训练损失。∑(updatea)和∑(pG)分别表示训练数据和生成样本的分布的协方差结构。d(·)表示距离度量,例如Frobenius范数。λ表示正则化术语。在低维流形上引入统计约束(即协方差结构)有助于减少在高维中寻找期望解的搜索空间。结果,不仅数据量减少了,而且收敛于解所需的训练时间也缩短了,这在求解湍流偏微分方程中得到了证明。在计算材料科学的应用中,Shah等人[43]提出了一个名为InvNet的深度生成模型,通过该模型可以生成满足所需物理财产的合成结构样品。InvNet是传统GAN的扩展,其中引入了一个附加的不变性检查器,以及一个传统的生成器和鉴别器。不变性检查器被引入为一个中间原语,在此基础上定义了一个隐式知识引导正则化项。基于所提出的不变性检查器定义不变性损失,测量不变性的违反。通过不变性损失,生成的样本被鼓励满足某些不变量(例如基序不变性,在固定位置的所有合成图像中植入预定义的基序)。除了表示为PDE的知识外,物理连接性和稳定性已被考虑用于真实的3D形状生成。Mezghanni等人[42]提出将物理约束纳入深度生成模型,从而物理约束既捕捉3D组件的连接性,又捕捉3D形状的物理稳定性。然后定义了完全可微的物理损耗项,用于将物理约束集成到神经网络中。具体而言,提出了一种神经稳定性预测器,该预测器被实现为神经网络分类器,并用模拟数据进行了预训练,以加强物理稳定性约束。对于模拟数据中的每个合成3D形状,其稳定性由子弹物理引擎标记。稳定性约束通过预训练的稳定性分类器进行编码,并通过稳定性损失集成到深度模型中。
变分自动编码器(VAE)也已通过物理集成进行了探索,以实现稳健和可解释的生成建模[51],[52]。特别是,物理知识(表示为PDE)被集成到VAE中。VAE的潜在变量受PDE定义的约束。此外,在[50]中,不是假设完全访问PDE的完整表达式,而是假设只有部分PDE是已知的,VAE的潜在变量部分基于PDE的已知部分的物理意义。其余未知PDE以数据驱动方式建模。
利用概率框架,不确定性量化已在物理信息深度模型中得到考虑[45],[53]–[55]。Zhu等人[54]认为CNN是一种物理形式,通过不确定性量化来解决偏微分方程。不确定性源于物理参数λ的随机性,其表示为随机向量x={λ1,……,λns},其中ns是可能的物理参数设置的总数,可以非常高。相应地,对于每个可能的物理参数设置,PDE u的解变为y={u1,u2,…,uns}。任务是在给定一组观测值Dinput={x(i)}Ni=1的情况下,对pθ(y|x)进行建模,其中x(i)~p(x)。θ表示要学习的神经网络参数。同时,通过方差Var[y]对PDE解的不确定性进行建模。为了训练神经网络,而不是使用标记数据,仅基于PDE及其边界条件定义了基于能量的模型,从中我们可以获得参考密度。特别地,参考密度pβ(y|x)遵循Boltzmann-Gibbs分布:
其中β是所构建的基于能量的模型的可学习参数。能量函数E(y,x)=VPDE(y,x)+λV边界(y)测量PDE和边界条件的违反。λ是一个可调超参数。物理方程被编码到基于能量的概率模型中。最后,通过最小化估计分布和参考分布之间的KL偏差来训练NN:
通过训练过程,物理方程被集成到神经网络中。同样,Yang和Perdikaris[53]通过考虑等式(24)的下限简化了目标函数。遵循类似的想法,Karumuri等人[55]使用深度残差网络(ResNet)以无标签方式解决椭圆随机偏微分方程。特别地,物理通知损失函数被定义为随机变量概率分布上PDE残差的期望值。以上讨论的所有三项工作都集中于不随时间演变的独立于时间的物理系统。Geneva和Zabaras[45]将这一想法扩展到一个动态系统中,在给定系统状态历史的情况下,使用自回归网络来预测未来的物理状态。
(太长了,接个(下))