凸优化|凸函数

一、定义和基本性质

1.1 定义

一个函数 f:RnR 是凸函数当且仅当 domf 是凸集,且对于所有的 x,ydomf0θ1,满足

f(θx+(1θ)y)θf(x)+(1θ)f(y)

  • xy0<θ<1 时上述不等式严格成立,则称函数 f 严格凸。若 f 为凸函数,则 f 为凹函数;若 f 为严格凸函数,则 f 为严格凹函数。
  • 仿射函数总是满足上述不等式,且所有的仿射函数都是既凸又凹的;所有既凸又凹的函数都是仿射函数;而凸函数不一定是仿射函数。

1.2 一阶条件

  • 可微

    若梯度

    f(x)=(f(x)x1,f(x)x2,,f(x)xn)

    domf (开集)的每个点 x 上都存在,则称 f 可微。

  • first-order conditions

    假设 f 可微,则 f 为凸函数当且仅当 domf 为凸,且对于所有的 x,ydomf​,满足

    f(y)f(x)+f(x)T(yx)

    凸函数一阶条件

    若对于所有的 x,ydomf,满足

    f(y)>f(x)+f(x)T(yx)

    则称 f 为严格凸。

    对于凹函数,则是: f 为凹函数当且仅当 domf 为凸,且对于所有的 x,ydomf​,满足

    f(y)f(x)+f(x)T(yx)

1.3 二阶条件

  • 二次可微

    若 Hessian 矩阵或二阶导

    2f(x)ij=2f(x)xixj,i,j=1,,n

    domf (开集)的每个点 x 上都存在,则称 f 二次可微。

  • second-order conditions

    假设 f 二次可微,则 f 为凸函数当且仅当 domf 为凸,且对于所有的 xdomf​,满足

    2f(x)0

    若对于所有的 xdomf,满足

    2f(x)>0

    则称 f 为严格凸。但反过来不成立,如函数 f(x)=x4 为严格凸的,但其二阶导在 x=0 时为 0。

    其实二阶性质和一阶性质的本质是一样的。二阶相当于一阶性质不等式的泰勒展开式右边增加了一个二次项(都省去了余项-高阶无穷小)。二次项相当于 (yx)T2f(x)(yx)0 ,即海森矩阵需满足半正定。

1.4 函数的凸性判别

  • 基本定义(将其限制在一条直线上)
  • 二阶导大于或等于海森矩阵半正定
  • 证明函数是由一些简单的凸函数经过保凸运算得到

1.5 凸/凹函数实例

  • 凸(convex)

    • 仿射函数(线性函数)。ax+b

    • 指数函数。eax,aR

    • 幂函数。xa,a>1ora<0

    • 绝对值的幂函数。|x|p,p1

    • 负熵。xlog(x)

    • 其它例子:

      • 范数(Norms)

      • max function。f(x)=max{x1,x2,,xn}

      • 二次超线性函数。如 f(x,y)=x2/y​ ,其定义域为

        domf=R×R++={(x,y)R2|y<0}

      • log-sum-exp。f(x)=log(ex1+ex2+,+exn)

      • 几何平均。f(x)=(i=1nxi)1/n,domf=R++n

      • log-determinant。f(X)=logdetX,domf=S++n

  • 凹(concave)

    • 仿射函数。ax+b

    • 幂函数。xa,0a1

    • 对数函数。log(x),xR++

1.6 Epigraph and sublevel set

与凸锥类似。其实 epigraph 就是在 sublevel set 的基础上增加了一个维度,假设原来 sublevel set 指的是 sublevel 以下函数线上的点集,epigraph 指的则是 sublevel 和函数之间的面上的点集合。

1.7 Jensen 不等式

  • f凸函数,则有:

f(θ1x1++θnxn)θ1f(x1)++θnf(xn)

​ 其中 0θi1,θ1++θn=1

  • Jensen不等式的另外形式:(从概率论的角度看其实就是数学期望 f[E(x)]E[f(x)]

    f(Sp(x)xdx)Sp(x)f(x)dx

二、保凸运算

  1. 非负加权和、无穷和与积分。

    (1)f=w1f1+w2f2++wmfm(2)g(x)=Aw(y)f(x,y)dy

  2. 仿射映射和复合(如缩放、平移、投影)

    g(x)=f(Ax+b)

  3. 逐点最大值和上确界

    (3)f(x)=max{f1(x)+f2(x)++fn(x)}(4)f(x)=supyAg(x,y)

  4. 复合运算

    (5)g:RnR,h:RkR,f:RnR(6)f(x)=h(g(x))

    规则:

    1. f 为凸。h 为凸且非递减,并且 g 为凸。
    2. f 为凸。h 为凸且非递增,并且 g 为凹。
    3. f 为凹。h 为凹且非递减,并且 g 为凹。
    4. f 为凹。h 为凹且非递增,并且 g 为凸。
  5. 凸函数的透视算子

    g(x,t)=tf(x/t)

三、共轭函数(对偶函数)

  • 定义

    假设 f:RnR,则将其共轭函数定义为 f:RnR ,表示为

    f(y)=supxdomf(yTxf(x))

    该共轭函数的定义域由 yRn​ 组成,其上确界是有限的。其定义可由下图解释

    conjugate function
  • 解释

    共轭函数 f 实际上是由一系列仿射函数的逐点上确界组成(supxdomf(yTxf(x)) 的第一项是关于 y 的线性函数,第二项无关),由于仿射函数是凸函数,而逐点上确界是保凸运算,因此 f凸函数。因此无论原函数 f 是否为凸,其共轭函数都是凸函数。且仅当 f 为凸且闭合时,f=f

  • 共轭函数的意义

    即便一个函数为非凸函数,也可以通过共轭运算获得一个凸函数以求得其最优解。

  • 例子:

    • f(x)=aTx+b
    • f(x)=ex
    • f(x)=xlog(x)

四、准凸函数

4.1 定义

设函数 f:RnR ,若函数的定义域及其任意下水平集(sublevel)

Sα={xdomf|f(x)α,αdomf}

为凸集,则称 f准凸函数(quasiconvex)。

  • 准凸函数对应的下水平集可能是一个区间,也可能包括无穷区间。
  • 实例:log(x),xR++ 是准凸/准凹的,因此也是准线性的。

4.2 基本性质

凸函数的许多性质对于准凸函数来说是成立的,或者有类似的性质。

  • 若函数 f 为准凸函数,当且仅当 domf 为凸集,且对于所有的 x,ydomf0θ1​ 满足

    f(θx+(1θ)y)max{f(x),f(y)}

  • 准凸函数的一阶条件

    若函数 f 一阶可微,则 f 为准凸函数,当且仅当 domf 为凸集,且对于所有的 x,ydomf ,满足(实际和凸函数的一阶条件是一样的)

    f(y)f(x)f(x)T(yx)0

    凸函数与准凸函数的区别:如果 f 是凸的,f(x)=0,那么 xf 的全局极小点,但对于准凸函数,此条件不成立:有可能 f(x)=0,但 x 不是 f 的全局极小点。

  • 准凸函数的二阶条件(实际这里写的是二阶条件的部分逆)

    若函数 f 二阶可微,且对于所有的 xdomfyRn,y0​ ,满足

    yTf(x)=0yT2f(x)y>0

    f 为准凸函数。也即要求二阶导 2f(x) 正定。

4.3 保准凸的算子

  • 非负权值函数的最大值函数、逐点上确界
  • 复合
  • 最小值函数

参考

  • 《Convex Optimization》
posted @   无发可理的理发师  阅读(1751)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示