凸集和凸函数

凸集和凸函数

定义与基本性质


  • ERm满足,x,yE,t[0,1],有(1t)x+tyE,则称ERm上的凸集.
  • ERm上的凸集,称f:ER是凸(凹)函数如果f((1t)x+ty)()(1t)f(x)+tf(y),x,yE,t[0,1].
  • ERm上凸集,则f是凸函数{(x,y)|yf(x),xE}Rm+1上的凸集.
  • 由凸函数的定义,{tk}k=1n满足tk0,k=1ntk=1,则k=1ntkxkEf(k=1ntkxk)k=1ntkf(xk)
  • E是凸集,E¯也是凸集
  • a1,a2anRm,称i=1ntiai,1in,ti0,i=1nti=1a1,a2an的一个凸组合,由此可以引出凸包(Convex Hull)的概念.
  • ERm,称Conv(E)E的凸包Conv(E):=i=1ntixi|1in,xiE,i=1nti=1,nN.不难验证,Conv(E)是包含E的最小凸集.

a1,a2anRm,则Conv({a1,a2an})是紧凸集.

事实上,T={t=(t1,t2tm)|i=1mti=1}是紧凸集.同时定义Φ(t)=i=1mtiai,则Φ:TConv({a1,a2an})是连续的一一映射.

  • E是凸集,称xEE的极点当且仅当x不能表示为E中其他点的凸组合.即t]0,1[,a,bE,xta+(1t)b.

由定义可知,若xE˚,x不可能是E的极点.因此,极点只能在E上.

  • KRm是紧凸集,则K一定有极点,若K不是单点集,K至少有两个极点.
  • K的全部极点是a1,a2an,则K=Conv({a1,a2an}).
  • i=1m[ai,bi]的全体极点是全体顶点.

凸函数的上确界


交点引理

ERm是紧集,xK,yRm,xy,则从y出发经过x的射线必与K有不同于y的交点.即ρ:=max{t1|y+t(xy)K}是良定义的且y+ρ(xy)K.特别地,如果xK˚,则ρr1+2|xy|>1,其中r满足B(x,r)K.

 I={t1|y+t(xy)K}(t1)|xy|=|y+t(xy)x|diam(K)t1+diam(K)|xy|II,KmaxIy+ρ(xy)K˚,ρxK˚,ρ>1. 


极值问题

KRm是紧凸集,f:KR是凸函数.则:

  • supxKf(x)=supxKf(x).
  • 特别地,若fK上连续,则有maxxKf(x)=maxxKf(x).即最值可以在边界上达到.
  • x0K˚,f(x0)=maxxKf(x).则f(x)c.

对于凹函数,将上面的sup换成inf,max换成min.

 xK˚,yK,zK,yz,f(x)f(y)f(z),z=ρ(xy)+y,ρ>1f(x)ρ1ρf(y)+1ρzf(x)supxKf(x)f. 

紧集条件不能去除,一个反例是K={(x1,x2xm)Rm|xi0,1im,i=1mxi<1},f(x)=11i=1mxi.


紧凸多面体的极值

K=conv(a1,a2an)Rm,f:KR是凸函数,则fK上有界.即max1inf(ai)+nmin1in[f(c)f(ai)]f(x)max1inf(ai).其中c=1ni=1nai.特别地,maxxKf(x)=max1inf(ai).


凸函数的下界

f:ER为凸函数,E是有界凸集且E˚,则infxEf(x)>.

 c=(c1,c2cm)E˚δ>0,K:=i=1m[ciδ,ci+δ]EKM>0,yK,Mf(y)MxE,xK,ρ>1,ρ(cx)+xK,z=ρ(cx)+x.f(c)ρ1ρf(x)+1ρf(z)f(x)ρ+1ρ1M.ρ1c=ρ1ρx+1ρzρ1ρ|xz|=1ρ|cz|ρ1=|cz|xzδ2diam(E)f(x). 

以上E˚的条件可以去除.

考虑E˚=的情形:

  • E为单点集,命题成立.
  • E不是单点集,xE1k<m维线性空间W,Ex+WEx对于W而言内部不为空.

 k=max{p|x0,x1xpE使x1x0,x2x0xpx0线}km,k=m,x0,x1xmE使x1x0,x2x0xmx0线.S=x0+Conv({x1x0,x2x0xmx0}).x1x0,x2x0xmx0Rm.ϕ:RmRm.xRm,x=c1(x1x0)+c2(x2x0)+cm(xmx0),ϕ(x)=(c1,c2cm).Sϕ(S)S˚,k<m.x0,x1xpE使x1x0,x2x0xpx0线.k,xE,xSpan(x1x0,x2x0xpx0).Ex0W.E^={ϕ(x)|xE},g(ϕ(x))=f(x)gE^gf. 


凸函数在局部是Lipschitz函数

f:ERm是凸函数,对x0E,定义I(x0,δ)=i=1m[x+iδ,xi+δ].

  • I(x0,2δ)E,则fI(x0,δ)上有界且满足Lipschitz条件.

    考虑I(x0,δ)中两点x,yI(x0,2δ)中一点z满足x+δ(xy)M|xy|,其中M=supxE|f(x)|,f(x)f(y)f(y)f(z)控制,通过使得其只与|xy|相关,再由xy的对称性确定|f(x)f(y)|满足Lipschitz条件.

  • E是开集,KE是紧集,则fK上满足Lipschitz条件.

    结合上一条,对xK,δx>0,I(x,δx)E,取所有I(x,δx)˚得到K的有限开覆盖.

  • fE˚上连续.

凸投影定理和凸函数的支撑平面


凸投影定理

KRm为非空的闭凸集,则有:

  • xRm,xK,dist(x,K)=dist(xx),且yK,(xx,yx)0,即xxyx的夹角大于π2.

  • 引入垂足映射P:RmK,P(x)=x,xRm.则有x,yRm,|P(x)P(y)||xy|.

不妨先假定xK,则有dist(x,x)0.

先证明P是良定义的,假设xRm,x1,x2K满足dist(x,K)=dist(x,x1)=dist(x,x2).

z=12(x1+x2)K,有|xz||xx1||xz|=|xx1|.

由平行四边形法则,2(|xx1|2+|xx2|2)=|x1x2|2+4|xz|2.

|x1x2|2=0x1=x2.

固定xRm,yK,定义f:[0,1]R,f(t)=|xxt(yx)|2,t[0,1].

t]0,1],x+t(yx)K,由x的唯一性,可知f(t)>f(0).

f+(0)02t(xx,yx)0(xx,yx)0.

x,yRm,|P(x)P(y)|2=(P(x)P(y),P(x)P(y))=(P(x)x,P(x)P(y))+(xy,P(x)P(y))+(yP(y),P(x)P(y))且有(P(x)x,P(x)P(y))0,(yP(y),P(x)P(y))0.

|P(x)P(y)|2(xy,P(x)P(y)).

|P(x)P(y)||xy|.

  • ERm是闭凸集,fC(E;Rn),记F=fP则有F|E=f,FC(rm;Rn).

  • 分离性

    KRm是闭凸集,xK,则sRm,s0,(s,x)>supyK(s,y).即在s的方向上,xK的上方.

    s=xP(x)yK,(s,yP(x))0(s,yx+s)0(s,x)|s|2+(s,y).

  • 分离性的推论

    K是凸集,xK,则sRm,s0满足(s,x)(s,y),yK.

    K=K¯{xn}K¯c,xnx.

    由分离性,sn0,|sn|=1满足(sn,xn)(s,y),yK.

    {sn}有收敛到s的收敛子列(s,x)(s,y),yK.


凸函数的支撑平面

f:ERmR,f是凸函数,则xE˚,v(x)Rm满足yE,f(y)f(x)+v(x)(yx).其中v(x)称为x的支撑平面.

特别地,m=1时,v(x)介于f(x)f+(x).v(x)唯一f是可微的.

K={(x,z)|zf(x)}Rm+1上的凸集(x,f(x))K.由分离性的推论,(s,α)Rm+1,(s,α)0(s,x)+αf(x)(s,y)+αr,(y,r)K.

α>0,令r+,矛盾.

α=0,则s0.由xE˚,δ>0,x+δsE.

(s,x)+αf(x)(s,x+δs)+αf(x+δs)0<δ|s|α(f(x)f(x+δs))α0.矛盾.

所以α<0.那么f(y)1|α|(s,yx)+f(x)=f(x)+(s|α|,yx).

(s,α)依赖于xv(x)=s|α|.


分离性与支撑平面的几何解读

  • 定义Rm上的超平面:若ξRmξ0,tR,则集合H:={xRm|xξ=t}称为Rm上的超平面.相对该超平面,定义H+={xRm|xξt},H={xRm|xξt},称为对应超平面的两个半空间.此时,ξ是平面H法向量.

    从超平面的角度解释上面的两个结论:

    • K是闭凸集,xK,令ξ=xP(x).由凸投影定理,tR,(x,ξ)>t>supyK(y,ξ)xH+,KH.

    • K是凸集,x0K,则ξRm,ξ0满足(ξ,x0)(ξ,y),yK.

      若令H={xRm|(ξ,x)=(ξ,x0)}则有x0K,x0HKH.满足这两个条件的平面H称为K的支撑平面.

  • 从几何的角度来看凸函数的支撑平面.

    • m=1时,有f(y)f(x)+v(x)(yx),yE.此时的支撑平面是一条直线L,可以认为L是由法向量(v(x),1)和点(x,f(x))确定.此时沿着(v(x),1)来看我们有{(y,f(y)|yE)}L.

    • m2时有Rm+1={(x,z)|xRm,zR}.

      由凸集的支撑平面可知存在ξ以及超平面H满足{(y,f(y))|yE}H.

      由于E={(y,z)|yE,zf(y)}.有ξem+10.其中em+1是最后一维的单位向量.

      由于ξ0,我们可以对其最后一维归一化,于是有ξ=(v,1).

      从而H(v,1)与点(x,f(x))确定.即(y,z)Rm+1,(y,z)H(yx,zf(x))(v,1)=0z=f(x)+v(yx).

      因此{(y,f(y))|yE}Hf(y)f(x)+v(yx).

posted @   Disposrestfully  阅读(559)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
点击右上角即可分享
微信分享提示