自然语言处理学习笔记-lecture2-数学基础1-微积分
微积分
函数
设数集
D
⊂
R
D \subset \mathbb{R}
D⊂R,则称映射
f
:
D
⊂
R
f : D \subset \mathbb{R}
f:D⊂R为定义在
D
D
D上的函数,通常记为
y
=
f
(
x
)
,
x
∈
D
y = f(x), x ∈ D
y=f(x),x∈D,其中
x
x
x称为自变量,
y
y
y称为因变量,
D
D
D称为定义域,记作
D
f
D_f
Df,即
D
f
=
D
D_f = D
Df=D。
对于每个
x
∈
D
x ∈ D
x∈D,按对应法则
f
f
f,总有唯一的值
y
y
y与之相对应,这个值称为函数
f
f
f在
x
x
x处的函数值,记作
f
(
x
)
f(x)
f(x),即
y
=
f
(
x
)
y = f(x)
y=f(x)。函数值
f
(
x
)
f(x)
f(x)的全体所构成的集合称为函数f的值域,记作
R
f
R_f
Rf或
f
(
D
)
f (D)
f(D),即
R
f
=
f
(
D
)
=
{
y
∣
y
=
f
(
x
)
,
x
∈
D
}
R_f =f(D)=\{y|y=f(x),x∈D\}
Rf=f(D)={y∣y=f(x),x∈D}
例如,
f
(
x
)
=
3
x
+
2
f(x) = 3x + 2
f(x)=3x+2是一个函数,定义域是
R
R
R,值域是
R
R
R,自变量和因变量之间存在一一映射。表示函数的记号可以任意选取,除了常用的
f
f
f以 外,还可以用其他的英文字母或希腊字母,如
g
g
g、
F
F
F和
ϕ
\phi
ϕ。
复合函数
给定两个函数
f
f
f和
g
g
g,复合函数定义为:
(
f
∘
g
)
(
x
)
=
f
(
g
(
x
)
)
( f \circ g)(x) = f(g(x))
(f∘g)(x)=f(g(x))
两个函数
f
f
f和
g
g
g能构成复合函数
f
∘
g
f \circ g
f∘g的条件是:函数
g
g
g的值域
R
g
R_g
Rg必须是函数
f
f
f 的定义域
D
f
D_f
Df的子集,即
R
g
⊆
D
f
R_g \subseteq D_f
Rg⊆Df。
例如,
y
=
f
(
u
)
=
3
u
+
2
y = f(u) = 3u + 2
y=f(u)=3u+2的定义域为
R
\mathbb{R}
R,而
u
=
g
(
x
)
=
x
2
−
2
u = g(x) = x2 − 2
u=g(x)=x2−2的定义域为
R
\mathbb{R}
R。由于
g
(
R
)
⊆
R
g(R) \subseteq R
g(R)⊆R,因此
f
f
f和
g
g
g可以构成复合函数
导数
设函数
y
=
f
(
x
)
y = f(x)
y=f(x)在点
x
0
x_0
x0的某个邻域内有定义,当自变量
x
x
x在
x
0
x_0
x0处有增量
Δ
x
\Delta x
Δx, 而且
x
0
+
Δ
x
x_0 + \Delta x
x0+Δx也在该邻域内时,函数取得增量
Δ
y
=
f
(
x
0
+
Δ
x
)
−
f
(
x
0
)
\Delta y = f(x_0 + \Delta x) − f(x_0)
Δy=f(x0+Δx)−f(x0)。如 果
Δ
y
\Delta y
Δy与
Δ
x
\Delta x
Δx之比当
Δ
x
→
0
\Delta x → 0
Δx→0时极限存在,则称函数
y
=
f
(
x
)
y = f(x)
y=f(x)在点
x
0
x_0
x0处可导, 并称这个极限为函数
y
=
f
(
x
)
y = f(x)
y=f(x)在点
x
0
x_0
x0处的导数,记作:
f
′
(
x
0
)
=
lim
Δ
x
→
0
f
(
x
0
+
Δ
x
)
−
f
(
x
0
)
Δ
x
f'(x_0) = \lim_{\Delta x \rightarrow 0} \frac{f(x_0 + \Delta x) − f(x_0)}{\Delta x}
f′(x0)=Δx→0limΔxf(x0+Δx)−f(x0)
导函数
如果函数
y
=
f
(
x
)
y = f(x)
y=f(x)在开区间内每一点都可导,则称函数
f
(
x
)
f(x)
f(x)在区间内可导。这时函数
y
=
f
(
x
)
y = f(x)
y=f(x)对于区间内的每一个确定的
x
x
x值,都对应着一个确定的导数值,这就构成一个新的函数。我们将该函数称之为原来函数的导函数,记作
y
′
y′
y′、
f
′
(
x
)
f′(x)
f′(x)或
d
f
(
x
)
/
d
x
df(x)/dx
df(x)/dx,简称导数。
导数的四则运算
对于可导函数 f f f和 g g g,导数的四则运算规则如下:
- 加法: ( f + g ) ′ = f ′ + g ′ (f + g)' = f' + g' (f+g)′=f′+g′
- 减法: ( f − g ) ′ = f ′ − g ′ (f − g)' = f' − g' (f−g)′=f′−g′
- 乘法: ( f g ) ′ = f ′ g + f g ′ (fg)′ = f'g + fg' (fg)′=f′g+fg′
- 除法: ( f / g ) ′ = ( f ′ g − f g ′ ) / g 2 (f/g)' = (f'g − fg')/g^2 (f/g)′=(f′g−fg′)/g2
复合函数的导数
对于复合函数
(
f
∘
g
)
(
x
)
(f \circ g)(x)
(f∘g)(x),通常使用链式法则计算其导数:
(
f
∘
g
)
′
(
x
)
=
f
′
(
g
(
x
)
)
g
′
(
x
)
( f \circ g)'(x) = f'(g(x))g'(x)
(f∘g)′(x)=f′(g(x))g′(x)
令
u
=
g
(
x
)
u = g(x)
u=g(x),则链式法则的另一种表述方式为:
d
f
(
g
(
x
)
)
d
x
=
d
f
(
u
)
d
u
×
d
u
d
x
\frac{df(g(x))}{dx} = \frac{df(u)}{du} \times \frac{du}{dx}
dxdf(g(x))=dudf(u)×dxdu
二阶导数
一般而言,函数
y
=
f
(
x
)
y = f(x)
y=f(x)的导数
y
′
=
f
′
(
x
)
y′ = f′(x)
y′=f′(x)仍然是
x
x
x的函数,可以进一步求 导。二阶导数是原函数导数的导数,即对原函数进行二次求导,记作:
y
′
′
=
(
y
′
)
′
y'' = (y')'
y′′=(y′)′
二阶导数的另一种常见的表示方法为
y
′
′
=
d
2
y
d
x
2
y'' = \frac{d^2y}{dx^2}
y′′=dx2d2y
例如,
y
=
x
2
y = x^2
y=x2的一阶导数为
y
′
=
2
x
y' = 2x
y′=2x,而二阶导数则是一阶导数
y
′
=
2
x
y' = 2x
y′=2x的导数y′′ = 2。
二阶导数反映了一阶导数的变化率。我们通常使用二阶导数来判断函数的凹凸性并计算极值。类似地,在条件允许的情况下,还可以计算函数的三阶导数、四阶导数或高阶导数。
函数的单调性
设函数
f
(
x
)
f(x)
f(x)的定义域为
D
D
D,区间
I
⊂
D
I \subset D
I⊂D。如果对于区间
I
I
I上任意两点
x
1
x_1
x1和
x
2
x_2
x2, 当
x
1
<
x
2
x_1 < x_2
x1<x2时,恒有
f
(
x
1
)
<
f
(
x
2
)
f(x_1) < f(x_2)
f(x1)<f(x2),则称函数
f
(
x
)
f(x)
f(x)在区间
I
I
I上单调递增。
反之,如果对于区间
I
I
I 上任意两点
x
1
x_1
x1 和
x
2
x_2
x2 ,当
x
1
<
x
2
x_1 <x_2
x1<x2 时,恒有
f
(
x
1
)
>
f
(
x
2
)
f(x_1) > f(x_2)
f(x1)>f(x2),则称函数
f
(
x
)
f(x)
f(x)在区间
I
I
I上单调递减。
凹函数
给定函数
f
:
R
→
R
f : \mathbb{R} → \mathbb{R}
f:R→R,对于任意两个点
x
1
x_1
x1和
x
2
x_2
x2,如果满足下列条件:
f
(
x
1
+
x
2
2
)
≤
f
(
x
1
)
+
f
(
x
2
)
2
f\left(\frac{x_1+x_2}{2} \right) \leq \frac{f(x_1) + f(x_2)}{2}
f(2x1+x2)≤2f(x1)+f(x2)
凸函数
给定函数
f
:
R
→
R
f : \mathbb{R} → \mathbb{R}
f:R→R,对于任意两个点
x
1
x_1
x1和
x
2
x_2
x2,如果满足下列条件:
f
(
x
1
+
x
2
2
)
≥
f
(
x
1
)
+
f
(
x
2
)
2
f\left(\frac{x_1+x_2}{2} \right) \geq \frac{f(x_1) + f(x_2)}{2}
f(2x1+x2)≥2f(x1)+f(x2)
函数的极值
设函数 f ( x ) f(x) f(x)在点 x = x 0 x = x_0 x=x0及其附近有定义。如果对于 x 0 x_0 x0附近的所有点都有 f ( x ) < f ( x 0 ) f(x) < f(x_0) f(x)<f(x0),则 f ( x 0 ) f(x_0) f(x0)是函数 f ( x ) f(x) f(x)的一个极大值, x 0 x_0 x0是函数 f ( x ) f(x) f(x)的一个极大值点。如果对于 x 0 x_0 x0附近的所有点都有 f ( x ) > f ( x 0 ) f(x) > f(x_0) f(x)>f(x0),则 f ( x 0 ) f(x_0) f(x0)是函数 f ( x ) f(x) f(x)的一个 极小值, x 0 x_0 x0是函数 f ( x ) f (x) f(x)的一个极小值点。
函数的最值
函数在整个定义域内可能有许多极大值或极小值,而且某个极大值不一 定大于某个极小值。函数f(x)在整个定义域内的最小函数值
f
(
x
0
)
f(x_0)
f(x0)称为函数
f
(
x
)
f(x)
f(x)的最小值,
x
0
x_0
x0称为最小值点。类似地,函数
f
(
x
)
f(x)
f(x)在整个定义域内的最大函数值
f
(
x
0
)
f (x_0)
f(x0)称为函数
f
(
x
)
f (x)
f(x)的最大值,
x
0
x_0
x0称为最大值点。
如果函数
f
(
x
)
f(x)
f(x)在闭区间
[
a
,
b
]
[a, b]
[a,b]上连续,则
f
(
x
)
f(x)
f(x)在
[
a
,
b
]
[a, b]
[a,b]上必有最大值和最小值。在开区间
(
a
,
b
)
(a, b)
(a,b)上连续的函数
f
(
x
)
f(x)
f(x)不一定有最大值和最小值,如函数
f
(
x
)
=
1
/
x
f(x) = 1/x
f(x)=1/x。函数的最值点必在函数的极值点或者区间的端点处获得。函数的极值可能有多个,但是最值最多只有一个。
如果函数
f
(
x
)
f(x)
f(x)在闭区间
[
a
,
b
]
[a, b]
[a,b]上有定义,在开区间
(
a
,
b
)
(a, b)
(a,b)内有导数,则求函数f(x)在闭区间
[
a
,
b
]
[a, b]
[a,b]上的最大值和最小值的步骤如下:
- 求函数 f ( x ) f(x) f(x)在开区间 ( a , b ) (a,b) (a,b)的导数 f ′ ( x ) f'(x) f′(x);
- 求方程 f ′ ( x ) = 0 f'(x) = 0 f′(x)=0在 ( a , b ) (a, b) (a,b)内的解;
- 求在 ( a , b ) (a,b) (a,b)内使 f ′ ( x ) = 0 f'(x)=0 f′(x)=0的所有点的函数值和 f ( x ) f(x) f(x)在闭区间端点处的函数值 f ( a ) f (a) f(a)和 f ( b ) f (b) f(b);
- 比较上面所求的所有值,其中最大值为函数 f ( x ) f(x) f(x)在闭区间 [ a , b ] [a, b] [a,b]上的最大值,最小值为函数 f ( x ) f(x) f(x)在闭区间 [ a , b ] [a, b] [a,b]上的最小值。
例如,可以使用上述方法计算函数 f ( x ) = x 2 − 2 x + 1 f(x) = x^2 − 2x + 1 f(x)=x2−2x+1在区间 [ − 2 , 2 ] [−2,2] [−2,2]上的最大值和最小值,得到函数的最小值点是1,最大值点是−2。
不定积分
函数
f
(
x
)
f(x)
f(x)的不定积分是一个导数等于
f
(
x
)
f(x)
f(x)的函数
F
F
F,即
F
′
(
x
)
=
f
(
x
)
F'(x) = f(x)
F′(x)=f(x)。相应地,函数
F
(
x
)
F(x)
F(x)称为
f
(
x
)
f(x)
f(x)的原函数。一个函数通常有多个原函数。例如,函数
f
(
x
)
=
2
x
f(x) = 2x
f(x)=2x的原函数可以是
F
(
x
)
=
x
2
+
1
F(x) = x^2 + 1
F(x)=x2+1,也可以是
F
(
x
)
=
x
2
+
2
F(x) = x^2 + 2
F(x)=x2+2。因此,我们通常将原函数写成以下的形式:
∫
f
(
x
)
d
x
=
F
(
x
)
+
C
\int f(x)dx = F(x) + C
∫f(x)dx=F(x)+C
其中,
C
C
C表示任意常数。常见的积分公式如下:
定积分
设函数
f
(
x
)
f(x)
f(x)在区间
[
a
,
b
]
[a, b]
[a,b]上连续,将区间
[
a
,
b
]
[a, b]
[a,b]分成
n
n
n个长度相等的子区间,则 函数
f
(
x
)
f(x)
f(x)在区间
[
a
,
b
]
[a, b]
[a,b]上的定积分定义为:
∫
a
b
f
(
x
)
d
x
=
lim
n
→
+
∞
f
(
a
+
i
n
(
b
−
a
)
)
b
−
a
n
\int_a^b f(x)dx = \lim_{n \rightarrow +\infty}f(a + \frac{i}{n}(b-a))\frac{b-a}{n}
∫abf(x)dx=n→+∞limf(a+ni(b−a))nb−a
其中,
a
a
a称为积分下限,
b
b
b称为积分上限,
[
a
,
b
]
[a, b]
[a,b]称为积分区间,
x
x
x称为积分变 量,
f
(
x
)
f (x)
f(x)称为被积函数。从直观上理解,定积分计算的是包围区域的面积。
多元函数
设
D
D
D是一个非空的
n
n
n元有序数组的集合,
f
f
f为某一确定的对应法则,如果对于每一个有限数组
(
x
1
,
x
2
,
.
.
.
,
x
n
)
∈
D
(x_1, x_2, ..., x_n) \in D
(x1,x2,...,xn)∈D, 通过对应法则
f
f
f,都有唯一确定的实数
y
y
y与之对应,则称对应法则
f
f
f为定义在
D
D
D上的多元函数,记为:
y
=
f
(
x
1
,
x
2
,
⋯
,
x
n
)
y = f(x_1,x_2,\cdots,x_n)
y=f(x1,x2,⋯,xn)
其中
x
1
,
x
2
,
.
.
.
,
x
n
x_1, x_2, ..., x_n
x1,x2,...,xn称为自变量,
y
y
y称为因变量。
偏导数
设函数
z
=
f
(
x
,
y
)
z = f(x, y)
z=f(x,y)在点
(
x
0
,
y
0
)
(x_0, y_0)
(x0,y0)的某一邻域内有定义,当
y
y
y固定在
y
0
y_0
y0而
x
x
x在
x
0
x_0
x0处 有增量
Δ
x
\Delta x
Δx时,相应地函数值有增量
f
(
x
0
+
Δ
x
,
y
0
)
−
f
(
x
0
,
y
0
)
f(x_0 + \Delta x, y_0) − f(x_0, y_0)
f(x0+Δx,y0)−f(x0,y0)。如果极限
lim
Δ
x
→
0
f
(
x
0
+
Δ
x
,
y
0
)
−
f
(
x
0
,
y
0
)
Δ
x
\lim_{\Delta x \rightarrow 0}\frac{f(x_0 + \Delta x,y_0)-f(x_0,y_0)}{\Delta x}
Δx→0limΔxf(x0+Δx,y0)−f(x0,y0)
存在,则称此极限为函数
z
=
f
(
x
,
y
)
z = f(x, y)
z=f(x,y)在点
(
x
0
,
y
0
)
(x_0, y_0)
(x0,y0)处对
x
x
x的偏导数,记为:
∂
z
∂
x
∣
x
=
x
0
,
y
=
y
0
=
lim
Δ
x
→
0
f
(
x
0
+
Δ
x
,
y
0
)
−
f
(
x
0
,
y
0
)
Δ
x
\frac{\partial z}{\partial x} | _{x = x_0,y=y_0} = \lim_{\Delta x \rightarrow 0}\frac{f(x_0 + \Delta x,y_0)-f(x_0,y_0)}{\Delta x}
∂x∂z∣x=x0,y=y0=Δx→0limΔxf(x0+Δx,y0)−f(x0,y0)
另一种形式是
f
x
(
x
0
,
y
0
)
f_x(x_0, y_0)
fx(x0,y0)。同理可以定义函数在点
(
x
0
,
y
0
)
(x_0, y_0)
(x0,y0)处对y的偏导数。如果函数
z
=
f
(
x
,
y
)
z = f(x, y)
z=f(x,y)在区域
D
D
D内任意一点
(
x
,
y
)
(x, y)
(x,y)处对
x
x
x的偏导数都存在,那么这个偏导数是
x
x
x和
y
y
y的函数,成为函数
z
=
f
(
x
,
y
)
z = f(x, y)
z=f(x,y)对自变量
x
x
x的偏导数,记为
∂
z
/
∂
x
\partial z/\partial x
∂z/∂x。
多元函数求导
设
f
(
x
,
y
)
=
x
2
+
3
x
y
+
y
−
1
f(x, y) = x^2 + 3xy + y − 1
f(x,y)=x2+3xy+y−1,求该函数对
x
x
x和
y
y
y的偏导在点
(
4
,
−
5
)
(4, − 5)
(4,−5)处的取值。求解方法如下。首先计算函数对
x
x
x的偏导。在计算过程中,我们可以将
y
y
y看作常量,然后对
x
x
x求导:
∂
f
∂
x
=
∂
∂
x
(
x
2
+
3
x
y
+
y
−
1
)
=
2
x
+
3
y
\frac{\partial f}{\partial x} = \frac{\partial}{\partial x}(x^2 + 3xy + y − 1) = 2x + 3y
∂x∂f=∂x∂(x2+3xy+y−1)=2x+3y
因此,
∂
f
/
∂
x
\partial f/\partial x
∂f/∂x在
(
4
,
−
5
)
(4, − 5)
(4,−5)处的值为
2
×
4
+
3
×
(
−
5
)
=
−
7
2 \times 4 + 3 \times (−5) = − 7
2×4+3×(−5)=−7。
接下来计算函数对
y
y
y的偏导,将
x
x
x看作常量:
∂
f
∂
y
=
∂
∂
y
(
x
2
+
3
x
y
+
y
−
1
)
=
3
x
+
1
\frac{\partial f}{\partial y} = \frac{\partial}{\partial y}(x^2 + 3xy + y − 1) = 3x + 1
∂y∂f=∂y∂(x2+3xy+y−1)=3x+1
因此,
∂
f
/
∂
y
\partial f/\partial y
∂f/∂y在
(
4
,
−
5
)
(4, − 5)
(4,−5)处的值为
3
×
4
+
1
=
13
3 \times 4 + 1 = 13
3×4+1=13
多元复合函数求导
首先来考虑一元函数与多元函数复合的情况。若函数
u
=
ϕ
(
x
)
u = \phi(x)
u=ϕ(x)和函数
v
=
ψ
(
x
)
v = \psi(x)
v=ψ(x)都在点
x
x
x可导,函数
z
=
f
(
u
,
v
)
z = f(u, v)
z=f(u,v)在对应点
(
u
,
v
)
(u, v)
(u,v)具有连续偏导数,那 么复合函数
z
=
f
(
ϕ
(
x
)
,
ψ
(
x
)
)
z = f(\phi(x), \psi(x))
z=f(ϕ(x),ψ(x))在点
x
x
x可导,其导数为:
d
z
d
x
=
∂
z
∂
u
d
u
d
x
+
∂
z
∂
v
d
v
d
x
\frac{dz}{dx} = \frac{\partial z}{\partial u}\frac{du}{dx} + \frac{\partial z}{\partial v}\frac{dv}{dx}
dxdz=∂u∂zdxdu+∂v∂zdxdv
例如,令
z
=
f
(
u
,
v
)
=
u
2
−
v
2
z = f(u, v) = u^2 − v^2
z=f(u,v)=u2−v2,
u
=
ϕ
(
x
)
=
x
2
−
1
u = \phi(x) = x^2 − 1
u=ϕ(x)=x2−1,
v
=
ψ
(
x
)
=
3
x
+
2
v = \psi(x) = 3x + 2
v=ψ(x)=3x+2,则 复合函数
z
z
z对
x
x
x的导数可计算为:
d
z
d
x
=
∂
z
∂
u
d
u
d
x
+
∂
z
∂
v
d
v
d
x
=
2
u
×
2
x
+
(
−
2
v
)
×
3
=
4
x
3
−
10
x
−
12
dxdz=∂u∂zdxdu+∂v∂zdxdv=2u×2x+(−2v)×3=4x3−10x−12
然后考虑多元函数与多元函数复合的情况。如果函数
u
=
ϕ
(
x
,
y
)
u = \phi(x, y)
u=ϕ(x,y)与函数
v
=
ψ
(
x
,
y
)
v = \psi(x, y)
v=ψ(x,y)具有对
x
x
x和
y
y
y的偏导数,函数
z
=
f
(
u
,
v
)
z = f(u, v)
z=f(u,v)在对应点
(
u
,
v
)
(u, v)
(u,v)具有连续偏导数,那么复合函数
z
=
f
(
ϕ
(
x
,
y
)
,
ψ
(
x
,
y
)
)
z = f(\phi(x, y), \psi(x, y))
z=f(ϕ(x,y),ψ(x,y))在点
(
x
,
y
)
(x, y)
(x,y)的两个偏导数存在:
∂
z
∂
x
=
∂
z
∂
u
∂
u
∂
x
+
∂
z
∂
v
∂
v
∂
x
∂
z
∂
y
=
∂
z
∂
u
∂
u
∂
y
+
∂
z
∂
v
∂
v
∂
y
\frac{\partial z}{\partial x} = \frac{\partial z}{\partial u}\frac{\partial u}{\partial x} + \frac{\partial z}{\partial v}\frac{\partial v}{\partial x} \\ \frac{\partial z}{\partial y} = \frac{\partial z}{\partial u}\frac{\partial u}{\partial y} + \frac{\partial z}{\partial v}\frac{\partial v}{\partial y}
∂x∂z=∂u∂z∂x∂u+∂v∂z∂x∂v∂y∂z=∂u∂z∂y∂u+∂v∂z∂y∂v
例如,令
z
=
f
(
u
,
v
)
=
u
+
v
z = f(u, v) = u + v
z=f(u,v)=u+v,
u
=
ϕ
(
x
,
y
)
=
x
y
,
v
=
ψ
(
x
,
y
)
=
x
+
y
u = \phi(x, y) = xy,v = \psi(x, y) = x + y
u=ϕ(x,y)=xy,v=ψ(x,y)=x+y,则复合函数
z
z
z对
x
x
x和
y
y
y的偏导数分别是:
∂
z
∂
x
=
y
+
1
∂
z
∂
y
=
x
+
1
\frac{\partial z}{\partial x} = y + 1 \\ \frac{\partial z}{\partial y} = x + 1
∂x∂z=y+1∂y∂z=x+1
梯度
设二元函数
z
=
f
(
x
,
y
)
z = f(x, y)
z=f(x,y)在平面区域
D
D
D上具有一阶连续偏导数,则对于每一 个点
(
x
,
y
)
(x, y)
(x,y)可以定义一个向量,称为函数
z
=
f
(
x
,
y
)
z = f(x, y)
z=f(x,y)在点
(
x
,
y
)
(x, y)
(x,y)的梯度,记作:
∇
f
(
x
,
y
)
=
(
∂
f
∂
x
,
∂
f
∂
y
)
\nabla f(x,y) = \left(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y}\right)
∇f(x,y)=(∂x∂f,∂y∂f)
例如,令
z
=
f
(
x
,
y
)
=
x
2
−
y
3
z = f(x, y) = x^2 − y^3
z=f(x,y)=x2−y3,则
x
x
x和
y
y
y的偏导函数为:
∂
f
∂
x
=
2
x
,
∂
f
∂
y
=
3
y
2
\frac{\partial f}{\partial x} = 2x,\frac{\partial f}{\partial y} = 3y^2
∂x∂f=2x,∂y∂f=3y2
因此,函数
f
(
x
,
y
)
f(x, y)
f(x,y)在点
(
2
,
1
)
(2,1)
(2,1)处的梯度是一个二维向量
(
4
,
3
)
(4,3)
(4,3)。多元函数的梯度可以类似地计算。梯队对于计算多元函数的极值而言非常重要,在深度学习的参数优化中被广泛使用。
多元函数极值
设函数
z
=
f
(
x
,
y
)
z = f(x,y)
z=f(x,y)在点
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)的某个邻域内有定义,对于该邻域内异于
(
x
0
,
y
0
)
(x_0, y_0)
(x0,y0)的点,如果不等式
f
(
x
,
y
)
<
f
(
x
0
,
y
0
)
f(x, y) \lt f(x_0, y_0)
f(x,y)<f(x0,y0)
成立,则称函数
f
(
x
,
y
)
f(x, y)
f(x,y)在点
(
x
0
,
y
0
)
(x_0, y_0)
(x0,y0)处有极大值。如果不等式
f
(
x
,
y
)
>
f
(
x
0
,
y
0
)
f(x, y) \gt f(x_0, y_0)
f(x,y)>f(x0,y0)
成立,则称函数
f
(
x
,
y
)
f(x, y)
f(x,y)在点
(
x
0
,
y
0
)
(x_0, y_0)
(x0,y0)处有极小值。
例如,函数
z
=
3
x
2
+
4
y
2
z = 3x^2 + 4y^2
z=3x2+4y2在点
(
0
,
0
)
(0,0)
(0,0)处有极小值,因为除了
(
0
,
0
)
(0,0)
(0,0)以外所有的点的函数值均为正,只有在点
(
0
,
0
)
(0,0)
(0,0)处的函数值为0。与之相反,函数
z
=
−
x
2
+
y
2
z = − \sqrt{x^2 + y^2}
z=−x2+y2在点
(
0
,
0
)
(0,0)
(0,0)处有极大值,因为除了
(
0
,
0
)
(0,0)
(0,0)以外所有的点的函数值均为负,只有在点
(
0
,
0
)
(0,0)
(0,0)处的函数值为0。
多元函数极值条件
定理1(必要条件):设函数
z
=
f
(
x
,
y
)
z = f(x,y)
z=f(x,y)在点
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)处具有偏导数,且在点
(
x
0
,
y
0
)
(x_0, y_0)
(x0,y0)处有极值,则函数在该点的偏导数必然为0:
f
x
(
x
0
,
y
0
)
=
0
,
f
y
(
x
0
,
y
0
)
=
0
f_x(x_0, y_0) = 0, f_y(x_0, y_0) = 0
fx(x0,y0)=0,fy(x0,y0)=0
定理2(充分条件):设函数
z
=
f
(
x
,
y
)
z = f(x, y)
z=f(x,y)在点
(
x
0
,
y
0
)
(x_0, y_0)
(x0,y0)的某邻域内连续且有一阶及二阶连续偏导数,并且
f
x
(
x
0
,
y
0
)
=
0
,
f
y
(
x
0
,
y
0
)
=
0
f_x(x_0, y_0) = 0,f_y(x_0, y_0) = 0
fx(x0,y0)=0,fy(x0,y0)=0,令
f
x
x
(
x
0
,
y
0
)
=
A
,
f
x
y
(
x
0
,
y
0
)
=
B
,
f
y
y
(
x
0
,
y
0
)
=
C
f_{xx}(x_0, y_0) = A, f_{xy}(x_0, y_0) = B, f_{yy}(x_0, y_0) = C
fxx(x0,y0)=A,fxy(x0,y0)=B,fyy(x0,y0)=C
则
f
(
x
,
y
)
f(x, y)
f(x,y)在
(
x
0
,
y
0
)
(x_0, y_0)
(x0,y0)处是否取得极值的条件如下:
- 当 A C − B 2 > 0 AC − B^2 > 0 AC−B2>0时有极值,当 A < 0 A < 0 A<0时有极大值, A > 0 A > 0 A>0时有极小值。
- 当 A C − B 2 < 0 AC − B^2 < 0 AC−B2<0时没有极值。
- 当 A C − B 2 = 0 AC − B^2 = 0 AC−B2=0时可能有极值,也可能没有极值。
求多元函数极值
求二元函数
f
(
x
,
y
)
=
x
3
−
y
3
+
3
x
2
+
3
y
2
−
9
x
f(x, y) = x^3 − y^3 + 3x^2 + 3y^2 − 9x
f(x,y)=x3−y3+3x2+3y2−9x的极值。
首先求解一阶导数组成的方程组:
f
x
(
x
,
y
)
=
3
x
2
+
6
x
−
9
=
0
f
y
(
x
,
y
)
=
−
3
y
2
+
6
y
=
0
f_x(x, y) = 3x^2 + 6x − 9 = 0 \\ f_y(x, y) = −3y^2 + 6y = 0
fx(x,y)=3x2+6x−9=0fy(x,y)=−3y2+6y=0
得到四组解:
(
1
,
0
)
、
(
1
,
2
)
、
(
−
3
,
0
)
(1, 0)、(1, 2)、(−3, 0)
(1,0)、(1,2)、(−3,0)和
(
−
3
,
2
)
(−3, 2)
(−3,2)。它们不一定都是极值点,需要进一步考察二阶导数:
f
x
x
(
x
,
y
)
=
6
x
+
6
f
x
y
(
x
,
y
)
=
0
f
y
y
(
x
,
y
)
=
−
6
y
+
6
f_{xx}(x, y) = 6x + 6 \\ f_{xy}(x, y) = 0 \\ f_{yy}(x, y) = −6y + 6
fxx(x,y)=6x+6fxy(x,y)=0fyy(x,y)=−6y+6
对四个解分别计算A、B和C,考察定理2的条件。
- ( 1 , 0 ) : A C − B 2 = 12 × 6 > 0 (1,0):AC−B^2=12×6>0 (1,0):AC−B2=12×6>0且 A = 12 > 0 A=12>0 A=12>0,因此 ( 1 , 0 ) (1,0) (1,0)是函数 f ( x , y ) f(x,y) f(x,y)的一个极小值点,对应的极小值是 f ( 1 , 0 ) = − 5 f(1,0) = − 5 f(1,0)=−5。
- ( 1 , 2 ) : A C − B 2 = 12 × ( − 6 ) < 0 (1, 2):AC − B^2 = 12 × (−6) < 0 (1,2):AC−B2=12×(−6)<0,因此 ( 1 , 2 ) (1, 2) (1,2)不是函数 f ( x , y ) f(x, y) f(x,y)的极值点。
- ( − 3 , 0 ) : A C − B 2 = ( − 12 ) × 6 < 0 (−3, 0):AC − B^2 = (−12) × 6 < 0 (−3,0):AC−B2=(−12)×6<0,因此 ( − 3 , 0 ) (−3, 0) (−3,0)不是函数 f ( x , y ) f(x, y) f(x,y)的极值点。
- ( − 3 , 2 ) : A C − B 2 = ( − 12 ) × ( − 6 ) > 0 (−3,2):AC−B^2=(−12)×(−6)>0 (−3,2):AC−B2=(−12)×(−6)>0且 A = − 12 < 0 A=−12<0 A=−12<0,因此 ( − 3 , 2 ) (−3,2) (−3,2)是函数 f ( x , y ) f(x, y) f(x,y)的一个极大值点,对应的极大值是 f ( − 3 , 2 ) = − 31 f(−3, 2) = − 31 f(−3,2)=−31。
拉格朗日乘子法
求函数
z
=
f
(
x
,
y
)
z = f(x, y)
z=f(x,y)在满足
g
(
x
,
y
)
=
0
g(x, y) = 0
g(x,y)=0下的条件极值,可以转化为函数
F
(
x
,
y
,
λ
)
=
f
(
x
,
y
)
+
λ
g
(
x
,
y
)
F(x, y, \lambda) = f(x, y) + \lambda g(x, y)
F(x,y,λ)=f(x,y)+λg(x,y)
的无约束条件极值问题。
例如,给定双曲线
x
y
=
3
xy = 3
xy=3求该曲线上距离原点最近的点。这是一个典型的带约束的求极值问题。
原始问题可以转化为:
F
(
x
,
y
,
λ
)
=
x
2
+
y
2
+
λ
(
x
y
−
3
)
F(x, y, λ) = x^2 + y^2 + λ(xy − 3)
F(x,y,λ)=x2+y2+λ(xy−3)
计算函数
F
(
x
,
y
,
λ
)
F(x, y, λ)
F(x,y,λ)的一阶偏导,得到方程组:
F
x
(
x
,
y
,
λ
)
=
2
x
+
λ
y
=
0
F
y
(
x
,
y
,
λ
)
=
2
y
+
λ
x
=
0
F
λ
(
x
,
y
,
λ
)
=
x
y
−
3
=
0
F_x(x, y, λ) = 2x + λy = 0 \\ F_y(x, y, λ) = 2y + λx = 0 \\ F_λ(x, y, λ) = xy − 3 = 0
Fx(x,y,λ)=2x+λy=0Fy(x,y,λ)=2y+λx=0Fλ(x,y,λ)=xy−3=0
求解该方程组,可以得到
λ
=
2
λ = 2
λ=2或
λ
=
−
2
λ = − 2
λ=−2。当
λ
=
2
λ = 2
λ=2时,无法求解
x
x
x和
y
y
y,因为势必有
−
x
2
=
3
−x^2 = 3
−x2=3。当
λ
=
−
2
λ = − 2
λ=−2时,有两组解:
(
3
,
3
)
( 3, 3)
(3,3)和
(
−
3
,
−
3
)
(− 3, − 3)
(−3,−3)。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(1)