本文主要记录研究中用到的与泛函和变分法相关的知识点,推导过程不会严谨考虑所有特殊情况,重在直觉理解。
1 泛函(Functional)#
泛函数(Functional,简称泛函)J是以函数为自变量的函数,它将一个定义在某函数空间Y中的自变量函数映射到实数域R或复数域C,即J:Y→R或J:Y→C。本文仅讨论实变函数,即值域与定义域都在实数集R内。
利用积分,对于函数y(x)∈Y,泛函J[y]可表示为:
J[y]=∫baF(x,y,y′,y′′,...)dx
F是一个关于x,y和y的各阶导数的函数,称之为核。实际上,不仅仅是利用积分,只要是能将函数映射到实数的操作都能用于泛函的映射,如:期望、极值、卷积、特定点函数值,甚至是随机过程等。本文主要以积分举例。
1.1 泛函方程#
当我们想要找到某个y以使J[y]满足特定值C时,可以建立泛函方程:
J[y]=∫baF(x,y,y′,y′′,...)dx=C
泛函方程种类较多,等式的左右还能添加额外的函数从而产生更复杂的情况,这里仅讨论简单情况。以上方程并不好直接求解,因为泛函方程的解是函数而非数值。通常利用拉格朗日乘数法将对该方程的求解转换为优化问题:
L[y,λ]=∫baF(x,y,y′,y′′,...)dx+λ(∫baF(x,y,y′,y′′,...)dx−C)
再利用变分法找使以上新泛函L[y,λ]取极值的y(x)。
2 变分法(Calculus of Variations)#
变分优化研究如何解决涉及泛函的极值问题,会用到各种方法,如变分法、数值优化、凸优化等,而其中变分法是求解变分优化问题的核心方法。变分法通过研究一个泛函在函数上的微小变化(即变分, variation),找到使这个泛函达到极值的函数,从而将泛函优化问题转化为数学上可求解的微分方程问题。其核心思想类似“导数为零是极值点”的概念。
对于泛函(为了简化,本文仅考虑一阶导y′)
J[y]=∫baF(x,y,y′)dx
我们期望找到一个y(x),使J[y]达到极值。变分法假设y(x)是一个可能的解,考虑其微小扰动:
~y(x)←y(x)+ϵη(x)
其中ϵ是一个微小的标量,η(x)为任意满足边界条件的光滑函数,有η(a)=η(b)=0。将上式代入得到扰动后的泛函:
J[~y]=J[y+ϵη]=∫baF(x,y+ϵη,y′+ϵη′)dx
针对ϵ将上式在ϵ=0处泰勒展开:
J[~y]=J[~y]|ϵ=0+∂J[~y]∂ϵ∣∣∣ϵ=0⋅ϵ+∂2J[~y]∂ϵ2∣∣∣ϵ=0⋅ϵ22!+…=J[y]+~J1ϵ+~J2ϵ2+…
其中,定义δJ=~J1=∂J[~y]∂ϵ∣∣ϵ=0=limϵ→0J[y+ϵη]−J[y]ϵ为一阶变分。δ符号表示函数的微小扰动对泛函所产生的变化率,一阶变分描述了泛函沿扰动方向(即η)的线性变化率。类似地,δJ2=~J2为二阶变分。
我们假定J[~y]在ϵ=0时取极值,但这是假定的条件,并不能用于后续计算。因此,进一步要用到泛函极值点的定义:如果某个函数y(x)使J[y]在其小范围内的值总是大于或小于其它函数值,则称y(x)是泛函的一个极值点。也就是说,对于任意的扰动函数η(x),我们用趋近于0的ϵ稍微增强该扰动,如果都有J[~y]≤J[y]或J[~y]≥J[y],则可以判断y(x)此时取到极值。
以上定义,可以判断J[~y]关于ϵ的左右导数limϵ→0+∂J[~y]∂ϵ和limϵ→0−∂J[~y]∂ϵ不同号。根据前面假定的光滑性,可得limϵ→0∂J[~y]∂ϵ=0,即一阶变分δJ=∂J[~y]∂ϵ∣∣ϵ=0为零(此时有δJδy=0)。即解方程:
∂J[~y]∂ϵ∣∣∣ϵ=0=0∫ba∂~F∂~y∂~y∂ϵ+∂~F∂~y′∂~y′∂ϵdx∣∣∣ϵ=0=0∫ba∂~F∂~yη+∂~F∂~y′η′dx∣∣∣ϵ=0=0
由于ϵ→0时,~F→F,~y→y,~y′→y′,得
∫ba∂F∂yη+∂F∂y′η′dx=0
利用分部积分将第二项中的η′转换为η,得
∫ba(∂F∂y−ddx(∂F∂y′))ηdx+∂F∂y′η∣∣∣ba=0
根据边界条件η(a)=η(b)=0,上式可去除去第二项得
∫ba(∂F∂y−ddx(∂F∂y′))ηdx=0
由于η是任意满足边界条件的光滑函数,为了保证上式成立,η的系数,也就是所谓的变分导数δJδy必须为零(定理不证)。从而得到欧拉-拉格朗日方程(Euler-Lagrange equation):
∂F∂y−ddx(∂F∂y′)=0
欧拉-拉格朗日方程提供了泛函驻点的必要条件,其解包含了所有可能的极值点y(x)。解出欧拉-拉格朗日方程后,可能需要进一步分析解的性质,比如利用二阶变分分析问题的凸性以判断是否全局最优。
2.1 实例——最短路径问题#
在二维平面上,寻找两点(x1,y1)和(x2,y2)之间路径最短的曲线y(x)。定义路径长度为:
L[y]=∫x2x1√1+y′2dx
列出欧拉-拉格朗日方程
−ddx(y′√1+y′2)=0
左右积分得
y′√1+y′2=Cy′=±√C21−C2
导数y′为常数,说明y(x)为线性函数,为直线。
3 参考#
1. 变分法简介Part 1.(Calculus of Variations)
2. 两小时搞定变分法
3. 变分法理解4——泛函导数
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 25岁的心里话
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 一起来玩mcp_server_sqlite,让AI帮你做增删改查!!
· 零经验选手,Compose 一天开发一款小游戏!