理论物理极础6:最小作用量原理
莱尼感到沮丧头疼:“乔治,那么多东西哪记得住!力、质量、牛顿定律、动量、能量。你说过,搞物理不需要死记硬背。你能不能把这些浓缩成一个东西让我记住?”
“可以啊,莱尼。镇静。我可以把这一起都搞简单。你只需要记住一件事情:作用量总是平稳的。”
过渡到高等力学
最小作用量原理——准确讲是平稳作用量原理——是经典物理定律最简洁的理论形式。这条原理只有一句话,但能涵盖一切!这条原理不仅是经典力学遵循的原理,还是电磁学、广义相对论、量子力学,还有化学,乃至物质的最基本的结构单元基本粒子都遵循的原理。
让我们从经典力学的基本问题开始讨论,即从运动方程确定系统的轨迹(或轨道)。我们一般假设有三个已知条件:各质点的质量、所受各种力\(F(\{x\})\)(其实,这个条件的更好的表述是给出势能函数)、初始条件。系统从给定的坐标和速度开始按照牛顿运动定律在力的作用下运动。如果共有\(N\)个坐标,\((x_1,x_2,\dots,x_N)\),初始条件要指定\(N\)个位置和\(N\)个速度。例如,在初始时刻\(t_0\),我们定好位置\(\{x\}\)和速度\(\{\dot{x}\}\),解方程,求出系统在随后某个时刻\(t_1\)的位置和速度。在这个过程中,我们常常要确定在两个时刻\(t_0\)和\(t_1\)之间的整个轨迹,如图1所示。
图1:从时刻\(t_0\)到\(t_1\)时间段上的轨迹
但是,我们也可以重新表述这个经典力学问题,同样给出\(2N\)个信息项。我们不是给出初始位置和速度,而是给出初末位置。我们的想法如下:棒球运动中,外场手掷棒球(\(t_0\)时刻\(x_0\)处),使棒球恰好1.5秒后到达二垒(\(x_1\)处),在此过程中,棒球如何运动?确定棒球的初速度已经包含在问题里边。初速度不是已知的,会由问题的解给出。
我们示意地画下时空图(见图2),以便说明问题。图中水平轴为质点(即棒球)的位置,竖直轴为时间。轨迹的初末端点已标注在时空图上,轨迹是连接这两点的曲线。
图2:棒球的轨迹
这个运动问题的两种表述方式类似在空间画一条直线的问题。一种画法是给定初始点和方向画直线,另一种画法是连接两个给定的点来画直线。前者类似给定初始位置和速度求运动轨迹,后者类似给定时空图上两位置求轨迹。给定两个点如何画直线?答案是沿两点之间最短路径画直线。对应于经典力学问题,轨迹为作用量为平稳值的路径。
作用量与拉格朗日量
作用量原理与牛顿方程需要的参数完全一样。你需要知道各质点的质量和体系的势能函数。路径的作用量是一个积分,两个积分限分别为初末时刻 \(t_0\) 和 \(t_1\)。我会直接告诉你这个积分,然后讨论一下对积分求极值会得到什么,后面你会看到,会得到牛顿方程。
在讨论一般情况之前,我们先讨论做直线运动的单个质点的情况。质点在\(t\)时刻的位置为\(x(t)\),速度为\(\dot{x}(t)\)。质点的动能和势能分别为:
某轨迹的作用量为
\begin{equation}
\mathcal A=\int_{t_0}{t_1}(T-V)dt=\int_{t_0}\left (\frac{1}{2}m\dot{x}^2-V(x) \right )dt
\label{eq:1}
\end{equation}
你可能会觉得方程(\ref{eq:1})中有打印错误。能量是\(T+V\),被积函数却是\(T-V\)。为什么是动能和势能的差而不是二者的和?你可以用\(T+V\)重做推导,你会发现结果是错的。这个量\(T-V\)是系统的拉格朗日量,也称拉格朗日函数,用\(L\)表示。要知道\(L\),需要给出质点的质量(以得到动能)和势能\(V(x)\)。这不意外,牛顿方程也需要知道质量和势能。
容易看出来,拉格朗日量是位置\(x\)和速度\(\dot{x}\)的函数。于是,我们将其写为:
作用量可写为拉格朗日量的积分:
\begin{equation}
\mathcal A=\int_{t_0}^{t_1}L(x,\dot{x})dt
\label{eq:2}
\end{equation}
平稳作用量原理非常神奇,使质点好像有超能力,能够从所有可能路径里找出使作用量为平稳值的路径。让我们暂停一下,思考我们正在做什么和将要得到什么。
对作用量求极值是对函数求极值的推广。作用量不是通常的多变量函数,它有无穷多变量,每个时刻的位置都是它的变量。发挥一下想象力,把连续轨迹代之以100万个点组成的“频闪”轨迹。每个点都有一个坐标\(x\),但是只有给出100万个\(x\),轨迹才能确定。作用量是整个轨迹的函数,因此是100万个变量的函数,对作用量求极值会得到100万个方程。
时间不是频闪的,真实的轨迹是连续的,由函数\(x(t)\)给出。那么,作用量是函数的函数。函数的函数叫做泛函。求泛函的极值在数学上称为变分。
尽管作用量泛函与普通函数差别很大,但是求作用量取平稳值的条件与求函数驻点的方法是很类似的。事实上,泛函取平稳值的条件与插播数学3的方程(4)的形式是一样的,即
变分可不是几个变量的微小变化,而是整个路径的微小变化。
本讲将会推导出作用量求极值所得方程,它们称为欧拉-拉格朗日方程。对于单个自由度的情况,轨迹上每一点都对应一个方程。这些方程是微分方程,给出系统如何随时间演化。因此,质点没有将所有可能路径都试一遍的超能力,至少不具有违背牛顿方程的能力。
这里我直接给出单自由度的欧拉-拉格朗日方程:
你可以将拉格朗日量代入,看是否能得到牛顿方程。
推导欧拉-拉格朗日方程
下面我们推导一下单自由度的欧拉-拉格朗日方程。首先把连续的时间换为频闪时间,可用\(n\)标记各时刻。相邻时刻之间的时间间隔 \(\Delta t\) 非常小。作用量是个积分,但积分是求和的极限。这里,求和是对相邻时刻之间的时间间隔求和,即:
上面第一式就是用离散求和近似积分。第二式我们也熟悉,速度代之以相邻位置之间的距离与时间间隔的商。
第二个代换有点微妙。由于我们要考虑对相邻时刻间的时间间隔求和,我们需要表示出两个时刻之间的中间时刻的位置。表示方法很简单,把\(x(t)\)用相邻时刻的平均位置表示即可:
因此,拉格朗日量里的 \(\dot{x}\) 代换为\(\frac{x_{n+1}-x_n}{\Delta t}\),\(x\)代换为\(\frac{x_{n}+x_{n+1}}{2}\)。于是,作用量为:
\begin{equation}
\mathcal A=\sum_{n} L \left ( \frac{x_{n+1}-x_n}{\Delta t},\frac{x_{n}+x_{n+1}}{2} \right )\Delta t
\label{eq:3}
\end{equation}
至此,就把作用量明显地写成各项的和,编个计算机程序计算作用量就类似这样的形式。
现在,我们考虑作用量对 \(x_n\) 中的某个变量的极值。比如选 \(x_8\),当然也可以选其他的,都是同样讨论。看起来好像很复杂,但是容易看到,方程(\ref{eq:3})中只有两项含有 \(x_8\),这两项为:
下一步要做的就是将上式对 \(x_8\) 求导。注意到,\(x_8\) 在每一项有两种存在方式,分别对应作用量的自变量速度和\(x\)。将作用量对 \(x_8\) 求导得:
$$\frac{\partial \mathcal A}{\partial x_8}=\frac{\partial A}{\partial x_8}=\left (-\frac{\partial L}{\partial\dot{x}}\Bigg|_{n=8}+\frac{\partial L}{\partial\dot{x}}\Bigg|_{n=7} \right )+\frac{1}{2}\left(\frac{\partial L}{\partial x} \Bigg|_{n=7} + \frac{\partial L}{\partial x} \Bigg|_{n=8} \right )\Delta t $$
其中,符号\(|\_{n=8}\)表示在 \(n=8\) 离散时刻计算函数值。
我们现在讨论一下当\(\Delta t\)趋于0时上式的变化。先将上式两边同除以\(\Delta t\),第一项,
上式为一个函数在相邻时刻 \(n=7\) 和 \(n=8\) 的函数值的差与时间步长的商,显然是一个微商,即
$$\frac{1}{\Delta t}\left (-\frac{\partial L}{\partial\dot{x}}\Bigg|_{n=8}+\frac{\partial L}{\partial\dot{x}}\Bigg|_{n=7} \right )\rightarrow -\frac{1}{dt}\frac{\partial L}{\partial \dot{x}}$$
第二项
$$\left(\frac{\partial L}{\partial x} \Bigg|_{n=7} + \frac{\partial L}{\partial x} \Bigg|_{n=8} \right )$$
此为\(\frac{\partial L}{\partial x}\)在两相邻时刻的值的和的一半,点的差别趋于零,我们得到的正是\(\frac{\partial L}{\partial x}\)。
由\(\frac{\partial \mathcal A}{\partial x_8}=0\),我们得到欧拉-拉格朗日方程
\begin{equation}
\frac{d}{dt}\frac{\partial L}{\partial \dot{x}}-\frac{\partial L}{\partial x}=0
\label{eq:4}
\end{equation}
练习1:证明方程(\ref{eq:4})正是牛顿方程\(F=ma\)的另一种形式 |
---|
以上推导同样可用于多自由度系统。对每个坐标\(x_i\)都对应一个欧拉-拉格朗日方程
$$\frac{d}{dt}\frac{\partial L}{\partial \dot{x}_i}-\frac{\partial L}{\partial x_i}=0$$
从以上推导可见,质点选择运动路径之前并没有感知所有路径的魔法。质点沿着轨迹的每一点,质点从当前时刻按使作用量最小的方式演化到下一时刻。最小作用量原理在每个瞬时表述为微分方程,该方程可确定体系下一时刻的行为。
更多质点,更高维度
对于一个多质点体系,假设需要\(N\)个坐标来描述,第 \(i\) 个坐标为 \(x_i\)。体系运动由\(N\)维空间的轨迹或轨道来描述。为了方便描述,我们把时间也作为一个坐标,这样轨道就是\(N+1\)维空间的一条路径。轨迹的起点为点集 \(x_i(t_0)\),轨迹的终点为另一点集 \(x_i(t_1)\)。所有坐标都为时间\(t\)的函数,这可表示\(N+1\)维空间中的轨道。
多自由度的最小作用量原理与单自由度情形的最小作用量原理本质上是一样的。拉格朗日量为动能减去势能:
作用量仍为拉格朗日量的积分:
\begin{equation} \mathcal A=\int_{t_0}^{t_1}L(\{x\},\{\dot{x}\})dt \label{eq:5} \end{equation}
最小(平稳)作用量原理仍然是体系的轨迹是使作用量为平稳值的轨迹。
变量很多的时候,我们改变轨迹的方式就更多了,比如我们可以改变\(x_1(t)\),或改变\(x_2(t)\),如此等等。多变量函数求极值,每个变量都有一个对应方程,与此类似,对于多自由度体系的最小作用量原理,每个变量\(x_i\)都对应有一个欧拉-拉格朗日方程,形式都与方程(\ref{eq:4})是一样的:
\begin{equation} \frac{d}{dt}\frac{\partial L}{\partial \dot{x}_i}-\frac{\partial L}{\partial x_i}=0 \label{eq:6} \end{equation}
练习2:证明方程(\ref{eq:6})正是牛顿方程\(F_i=m_i\ddot{x}_i\)的另一种形式 |
---|
最小作用量有什么好处??
最小作用量原理很有用,有两个主要原因。第一,最小作用量原理以很简明的方式涵盖了体系的所有运动信息。所有的参数(如质量和力)和所有运动方程都包含于一个函数——拉格朗日量。你知道拉格朗日量后,唯一剩下还需要知道的是初始条件。一个函数概况任意自由度体系的行为,这真是一个巨大的进步。在以后的几部书,我们将发现,物理整体的各个分支理论——麦克斯韦的电动力学、爱因斯坦的相对论和基本粒子的标准模型——都可以用拉格朗日量描述。
应用最小作用量原理的第二个原因是,力学的拉格朗日描述在实用性上有优势。后文会举例说明。
比如做一维运动一个质点,从一个静止的人看来,质点运动满足牛顿定律。这位静止的物理学家——比如是莱尼——用坐标\(x\)标记质点的位置。
另外一位物理学家乔治正相对莱尼运动(平动,这里不考虑有转动的情况),他想知道如何描述质点相对自己的坐标。首先,相对乔治的坐标是什么意思?因为乔治在相对莱尼运动,所以乔治的坐标系的原点相对莱尼坐标系的原点在运动。这些可以通过莱尼坐标系的坐标\(x\)和乔治的坐标系的坐标\(X\)之间的变换来表示。
做法如下。在任意时刻\(t\),乔治的坐标系的原点在莱尼坐标系的坐标为\(x+f(t)\),\(f(t)\)为描述乔治相对莱尼的运动。时刻 \(t\) 的一事件,在莱尼坐标系的坐标为\(x\),在乔治坐标系的坐标为\(X\),它们有如下关系:
一个质点的运动轨迹,在莱尼看来是\(x(t)\),乔治看来是\(X=x-f(t)\)。如果乔治不想一直问莱尼看到的轨迹,他需要用他的运动定律在他的坐标系里描述质点。将运动方程从一个坐标系变换到另一坐标系,最容易的方法是应用最小作用量原理,或者欧拉-拉格朗日方程。
在莱尼的坐标系,轨迹的作用量为:
\begin{equation}
\mathcal A=\int_{t_0}^{t_1}\left (\frac{1}{2}m\dot{x}^2-V(x) \right )dt
\label{eq:7}
\end{equation}
我们也可以写出乔治坐标系里轨迹的作用量。我们需要把 \(\dot{x}\) 用 \(\dot{X}\) 表示出来:
带入方程(\ref{eq:7}),得:
\(V(X)\)表示莱尼采用的势能函数,势能函数用质点位置计算,这里用乔治坐标系的坐标来表示的。\(X\) 与 \(x\) 是对同一位置的不同的标记。我们知道在\(X\)坐标系里,拉格朗日量为:
把平方项展开,
\begin{equation}
L=\frac{1}{2}m(\dot{X}2+2\dot{X}\dot{f}+\dot{f}2)-V(X)
\label{eq:8}
\end{equation}
乔治该怎么处理方程(\ref{eq:8})?写出欧拉-拉格朗日方程
移项,
这个结果不奇怪。在乔治看来,质点还受到一个“虚拟”力\(-m\ddot{f}\)。这里有意思的是,我们不是从运动方程变换得到这个结果,我们是从拉格朗日量直接得到这个结果。
让我们再看一个例子。这次乔治坐着旋转木马。莱尼坐标系的坐标是\(x\)和\(y\),乔治坐标系的坐标是\(X\)和\(Y\),乔治坐标系随着旋转木马旋转。两坐标系之间的关系为:
\begin{align} x& =X\cos(\omega t)+Y\sin(\omega t)\notag \\ y& =-X\sin(\omega t)+Y\cos(\omega t) \label{eq:9} \end{align}
莱尼和乔治两位观察者都会看到,质点做平面运动。假设莱尼看来,质点不受力,则拉格朗日量为:
\begin{equation}
L=\frac{m}{2}(\dot{x}2+\dot{y}2)
\label{eq:10}
\end{equation}
我们下一步要做的事情是,在乔治的旋转坐标系里把作用量表示出来,然后应用欧拉-拉格朗日方程,求出运动方程。我们已经知道莱尼坐标系里的作用量,我们只需用乔治坐标系的坐标把莱尼坐标系的速度表示出来。将方程(\ref{eq:9})对时间微分,得:
应用\(\sin^2+\cos^2=1\),对以上两式做一番代数运算,可得:
\begin{equation}
\dot{x}2+\dot{y}2=\dot{X}2+\dot{Y}2+\omega2(X2+Y^2)+2\omega(\dot{X}Y-X\dot{Y})
\label{eq:11}
\end{equation}
下一步要做的就是把方程(\ref{eq:11})带入莱尼坐标系的拉格朗日量,即方程(\ref{eq:10}),然后即会得到乔治坐标系的拉格朗日量:
\begin{equation}
L=\frac{m}{2}\left (\dot{X}2+\dot{Y}2\right )+\frac{m\omega^2}{2}\left (X2+Y2\right )+\
m\omega\left (\dot{X}Y-X\dot{Y}\right )
\label{eq:12}
\end{equation}
我们来看看各项的含义。第一项,\(\frac{m}{2}\left (\dot{X}^2+\dot{Y}^2\right )\),我们很熟悉,质点在乔治坐标系里的动能。第二项,\(\frac{m\omega^2}{2}\left (X^2+Y^2\right )\),源自旋转运动,在乔治看来,这是一个势能:
容易看出,这个势能对应的力方向沿径向向外,大小正比于到圆周运动的圆心的距离:
这正是离心力。
方程(\ref{eq:12})中最后一项我们没见过。它对应于科里奥利力。我们把欧拉-拉格朗日方程写出来,才能搞明白科里奥利力怎么回事。欧拉-拉格朗日方程为:
形式上看正是牛顿方程,物体受力为离心力和科里奥利力。科里奥利力的分量为:
科里奥利力不仅是位置的函数还是速度的函数。
练习3:应用欧拉-拉格朗日方程,由拉格朗日量(\ref{eq:12})推导出运动方程。 |
---|
这一练习的要点不在于推导离心力和科里奥利力,而是在于如何将力学问题在不同坐标系间变换,只需要在各坐标系写出相应的拉格朗日量就知道了。这是目前为止做这个变换的最简便的方法,要比直接变换牛顿方程容易得多。
再有一例,留给读者完成,将乔治坐标系里的方程变换到极坐标系:
练习4:将乔治坐标系里的拉格朗日量和欧拉-拉格朗日方程变换到极坐标系。 |
---|
广义坐标和广义动量
笛卡尔坐标系没有什么特别的,不是通用的坐标系。对于任何力学系统,都有许许多多坐标系可用来表述。比如,我们要研究物体在球面上的运动,比如地球表面上的运动。在这个问题里,笛卡尔坐标系就很不方便,更自然的坐标系是两个角度:经度和维度。更一般的情况,物体沿曲线滚动,比如沿山坡滚动,这个问题就没有特别的坐标系。所以,这里提出一个重要的问题,是否能想出一个通用的方法建立经典力学方程,并且这个方法能任何坐标系。
考虑一个抽象问题,体系用一广义坐标系表述。我们把\(x_i\)预留出来表示笛卡尔坐标系。广义坐标的记号为\(q_i\)。\(q_i\)可以是笛卡尔坐标,也可以是极坐标,或其他我们可以考虑的任何事情。
我们还需要表示出速度,在这个抽象问题里,速度为广义坐标\(q_i\)对时间的导数。初始条件由广义坐标和广义速度集表示,\((q_i,\dot{q}_i)\)。
在广义坐标系里,运动方程可能很复杂,但作用量原理总是适用的。经典物理所有体系——甚至波和场——都可以用拉格朗日量描述。有时候,拉格朗日量可由已知的知识计算得到。比如由莱尼坐标系的拉格朗日量可计算得到乔治坐标系的拉格朗日量。有时候,拉格朗日量可由某些理论偏好或原理猜测。但是,拉格朗日量不管是怎么得到,都能简洁地概括所有的运动方程。
为什么所有的体系都要用作用量原理和拉格朗日量描述?这个问题不容易回答,但是,能知道背后的原因与经典物理的量子起源密切相关,还与能量守恒密切相关。眼下,我们只先接受这一点,经典物理的所有已知的体系都可以用作用量描述。
拉格朗日量是广义坐标和广义速度的函数,\(L=L(q\_i,\dot{q}\_i)\),作用量原理为
$$\delta \mathcal A=\delta \int_{t_0}^{t_1}L(q_i,\dot{q}_i)dt=0$$
这意味着所得方程为欧拉-拉格朗日方程的形式,为经典力学运动方程的一般形式。每个 \(q_i\) 都对应一个方程:
\begin{equation} \frac{d}{dt}\frac{\partial L}{\partial \dot{q}_i}-\frac{\partial L}{\partial q_i}=0 \label{eq:13} \end{equation}
即所有的理论物理都在这个方程里。如果你知道\(q_i\)是什么,并且知道拉格朗日量,你就可以知道一切。
现在我们细看一下方程(\ref{eq:13})中的两项。先看\(\frac{\partial L}{\partial \dot{q}\_i}\)。暂时把 \(q\_i\) 看做是通常的单个质点的笛卡尔坐标。\(L\) 就是通常的动能与势能之差。此时,拉格朗日量会含有有\(\frac{1}{2}m\dot{x}^2\),则 \(\frac{\partial L}{\partial \dot{q}\_i}\) 则为\(m\dot{x}\),即动量的 \(x\) 分量。因此我们称\(\frac{\partial L}{\partial \dot{q}\_i}\)为\(q\_i\)共轭的广义动量,或称\(q_i\)的共轭动量。
共轭动量的概念超越了动量的通常的定义(质量与速度之积)。共轭动量由拉格朗日量而定,可能不是具有明显物理意义的量,但是总可以定义为:
\(p_i\)表示广义动量。
引入广义动量,欧拉-拉格朗日方程变为:
我们从极坐标描述的单个质点做些说明。此时,广义坐标\(q_i\)为半径 \(r\) 和角度 \(\theta\)。根据练习4的结果,拉格朗日量为:
\(r\)的共轭动量为:
对应的运动方程:
又\(\dot{p}_r=m\ddot{r}\),上式两边约掉\(m\),可得
角\(\theta\)的运动方程非常有意思。首先写成\(\theta\)的共轭动量
这个物理量正是质点的角动量。角动量与\(p_{\theta}\)说的是一个东西。
现在考虑\(\theta\)的运动方程。拉格朗日量里根本没有\(\theta\),于是有
\begin{equation}
\frac{d p_{\theta}}{dt}=0
\label{eq:14}
\end{equation}
换言之,角动量守恒。方程(\ref{eq:14})还可写为
\begin{equation}
\frac{d }{dt}\left (mr^2\dot{\theta}\right)=0
\label{eq:15}
\end{equation}
我们可以看出\(r^2\dot{\theta}\)是常量。所以,角速度越大,质点越靠近原点。
练习5:用以上方法推导摆长为\(l\) 的单摆的运动。 |
---|
循环坐标
zhi
如前文所见,有时候有些坐标不会出现在拉格朗日量里。这种坐标被称为循环坐标。我也不知道这里“循环”是什么意思?
我们知道的是,改变循环坐标的值,拉格朗日量不变,循环坐标的共轭动量守恒。角动量就是一个例子。另一个例子就是普通动量,即线动量。对于单个质点,拉格朗日量为:
这个拉格朗日量里没有任何坐标,因此三个笛卡尔坐标都是循环坐标。(这里没什么东西在循环,只是用了这个词而已。)因此,动量的各个分量都是守恒的。如果势能显含某个坐标,则相应的动量的分量则不守恒。
我们再看另外一个例子:两个质点沿直线运动,它们之间的势能函数是两质点之间距离的函数。为简单起见,我们只考虑两质点具有相同质量的情况,这不会使问题失去一般性。两个质点的坐标分别为\(x_1\)和\(x_2\)。拉格朗日量为:
\begin{equation}
L=\frac{m}{2}\left(\dot{x}2+\dot{y}2 \right )-V(x_1-x_2)
\label{eq:16}
\end{equation}
拉格朗日量显含\(x_1\)和\(x_2\),二者都不是循环坐标,两个质点的动量也都不守恒。
但是,这里漏掉了重要一点。我们变换一下坐标。定义\(x_+\)和\(x_-\)如下:
用这两个新坐标可重写拉格朗日量。动能为
$$T=m\left(\dot{x}_+^2+\dot{x}_{-}^2 \right )$$
练习6:推导出上式。 |
---|
重点在于势能,它只是\(x_-\)的函数。新的拉格朗日量为:
换言之,这个体系有个隐含的循环坐标,即\(x_+\)。这意味着\(x_+\)的共轭动量\(p_+\)守恒。容易看出来,\(p_+\)正是总动量:
真正的重点不在于循环坐标,而是在下一讲,对称性。