多元函数的可微性和展开
多元单值函数:f(→x)=f(x1,x2,...,xn),其中 →x=(x1,x2,...,xn)T
梯度:∇→xf(→x)=(∂f∂x1,∂f∂x2,...,∂f∂xn)T
黑塞矩阵:
H=∇2→xf(→x)=⎡⎢
⎢
⎢
⎢
⎢⎣∂2f∂x21∂2f∂x1∂x2⋯∂2f∂x1∂xn⋮⋮⋮⋮∂2f∂xn∂x1∂2f∂xn∂x2⋯∂2f∂x2n⎤⎥
⎥
⎥
⎥
⎥⎦
雅可比矩阵:J=∇2→xf(→x)T(将黑塞矩阵转置即可得到)
注意:当后文出现形如 x∈Rn 时,说明 x 为向量。后文不再使用箭头形式。
x∈Rn,多元函数的一阶泰勒展开(矩阵形式):
f(x)=f(x∗)+∇f(x∗)T(x−x∗)+o(||x−x∗||)
x∈Rn,多元函数的二阶泰勒展开(矩阵形式):
f(x)=f(x∗)+∇f(x∗)T(x−x∗)+12(x−x∗)T∇2f(x∗)(x−x∗)+o(||x−x∗||2)
关于上两式的推导,在《高等数学》中均有提及。
设 x∈Rn,在微分多元函数时经常使用以下规则:
- ∀A∈Rm×n,有 ∇xAx=A⊤
- ∀A∈Rn×m,有 ∇xx⊤A=A
- ∀A∈Rn×n,有 ∇xx⊤Ax=(A+A⊤)x
- ∇x∥x∥2=∇xx⊤x=2x
- 对于任意矩阵 X,有 ∇X∥X∥2F=2X
p-范数
定义:设 x∈Rn,||x||p=(n∑i=1∥xi∥)1p
p-范数 |
公式 |
二维范数的图像 |
0-范数 |
非零元的个数 |
- |
1-范数 |
||x||1=n∑i=1|xi| |
|x|+|y|=1(菱形) |
2-范数 |
||x||2=
⎷n∑i=1|xi|2=√xTx |
√x2+y2=1(圆形) |
∞-范数 |
||x||∞=limp→∞(n∑i=1|xi|)1p=max1≤i≤n|xi| |
max(|x|,|y|)=1(正方形) |
凸函数
凸函数定义:对 ∀x,y∈D,∀λ∈(0,1),有:
f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y)
强凸函数定义:对 ∀x,y∈D,∀λ∈(0,1),有:
f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y)−r2λ(1−λ)||x−y||2
其中 r 为强凸系数。
摘自《Strong-Convexity:强凸性》:这个强凸的性质是很重要的。直观从一维函数来说,一般凸函数只要求函数曲线在其切线之上,至于“上”多少没有要求,也就意味着曲线可以无限“贴着”切线,只要保持在其上就行了。毫无疑问,在优化特别是梯度优化中,这种微弱的梯度变化很难实现快速优化,有可能在有限次数还达不到收敛。如果我们取一个接近最小值的解,这也很难。“非常”接近只是一个定性理解,在这种情况下会出现最优解很近似但是决策变量相差巨大的糟糕情况。这时候,多加一个二次项的,保证有一个二次下界,那么不会出现“贴着”切线的情况,优化也变得更加简单。
一些定理:
- f(x) 是凸函数 ⇔f(x)≥f(x∗)+∇f(x∗)T(x−x∗)
- f(x) 是严格凸函数 ⇔f(x)>f(x∗)+∇f(x∗)T(x−x∗)
- f(x) 是一致凸函数 ⇔f(x)≥f(x∗)+∇f(x∗)T(x−x∗)+r2||x−x∗||2
- f(x) 是凸函数 ⇔∇2f(x) 半正定(即 ∇2f⪰0,或 x⊤Hx≥0)
- f(x) 是严格凸函数 ⇐∇2f(x) 正定(即 ∇2f≻0,或 x⊤Hx>0)
- f(x) 是一致凸函数 ⇔∇2f(x) 一致正定
凸集
见11.2. 凸性 - 动手学深度学习2.0.0。
无约束优化问题的最优解条件
最优解的定义
设 x∗∈Rn,δ≥0,则:N(x∗,δ)=x∗∈Rn,||x−x∗||≤δ。
设 x∗ 为 f(x) 的:
- 全局极小值点(最小值点):∀x∈Rn,x≠x∗,f(x)≥f(x∗)
- 局部极小值点:∃δ>0,∀x∈N(x∗,δ),x≠x∗,f(x)≥f(x∗)
- 驻点:∇f(x∗)=0
- 鞍点:∇f(x∗)=0,且 ∀δ>0,∃y,z∈N(x∗,δ),有 f(y)>f(x∗)>f(z)
若 f(x) 为凸函数,则局部极小值点即为全局极小值点。
一阶最优解条件
【一阶最优解的必要条件】设 x∗∈D 为 f(x) 的一个局部极小值点,则 ∇f(x∗)=0。
证明:对于 ∀d∈Rn,不妨设 ||d||=1,∃δ>0,0<α<δ,泰勒展开得:
f(x∗)≤f(x∗+αd)=f(x∗)+α∇f(x∗)Td+o(||αd||)
整理得:
∇f(x∗)Td+o(||αd||)α≥0
取 α→0+,则:
∇f(x∗)Td≥0
取 d=−∇f(x∗),则有:−||∇f(x∗)||≤0,所以:∇f(x∗)=0。
【一阶最优解的充要条件】设 f(x) 为凸函数,则:x∗ 是 f(x) 的全局极小值点 ⇔∇f(x∗)=0
二阶最优解条件
【二阶最优解的必要条件】设 x∗∈D 为 f(x) 的一个局部极小值点,则 ∇f(x∗)=0,且 ∇2f(x∗) 半正定。
证明:对于 ∀d∈Rn,不妨设 ||d||=1,∃δ>0,0<α<δ,泰勒展开得:
f(x∗)≤f(x∗+αd)=f(x∗)+α∇f(x∗)Td+12α2dT∇2f(x∗)d+o(||αd||2)=f(x∗)+12α2dT∇2f(x∗)d+o(||αd||2)
整理得:
12dT∇2f(x∗)d+o(||αd||2)α2≥0
取 α→0+,则:
dT∇2f(x∗)d≥0
所以 ∇2f(x∗) 半正定。
【二阶最优解的充分条件】若 ∇f(x∗)=0,则:
- ∇2f(x∗) 正定,则 x∗ 为 f(x) 的局部极小值点
- ∇2f(x∗) 负定,则 x∗ 为 f(x) 的局部极大值点
- ∇2f(x∗) 不定,则 x∗ 为 f(x) 的鞍点(不是极值点)
- ∇2f(x∗) 半正定,则上述三种情况都有可能
可对照《高等数学》中二元函数求极值的充分条件。
本文作者:漫舞八月(Mount256)
本文链接:https://www.cnblogs.com/Mount256/p/18471335
版权声明:本作品采用CC 4.0 BY-SA许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
2022-10-17 考研英语不熟悉的词义(List6-List10)