Convex Optimization: 2 Convex sets 作业

2.8, 2.13, 2.22, A1.5, A1.9.

2.8

在这里插入图片描述
问以下哪些集合是多面体,如果可能的话,用 S={xAxb,Fx=g}S=\{x|Ax\preceq b,Fx=g\} 的形式来表示 SS

a

SS 是一个多面体,它是由 a1+a2,a1a2,a1+a2,a1a2a_1+a_2,a_1-a_2,-a_1+a_2,-a_1-a_2 这四个顶点构成的,比如在 R2\mathbf{R}^2 中:

在这里插入图片描述
集合 SS 可以描述为以下几个点集的交集:

  • S1S_1a1,a2a_1,a_2 所定义的平面上的点
  • S2S_2{z+y1a1+y2a2a1Tz=a2Tz=0,1y11}\{z+y_1a_1+y_2a_2|a_1^Tz=a_2^Tz=0,-1\le y_1\le 1\},其中 zz 是垂直于 a1,a2a_1,a_2 平面的向量,对于每一个固定的 y1y_1S2S_2 为一个平行于 a2a_2 且垂直于 a1,a2a_1,a_2 所形成的平面的平面,变化 y1y_1S2S_2 实际上是一组这样的平面。
  • S3S_3{z+y1a1+y2a2a1z=a2Tz=0,1y21}\{z+y_1a_1+y_2a_2|a_1z=a_2^Tz=0,-1\le y_2\le 1\} ,这个和 S2S_2 同理,S3S_3 平行于 a1a_1 ,垂直于 a1,a2a_1,a_2 所形成的平面,是一组平面。

以上三个集合取交集刚好是图中所示的平行四边形(阴影部分)

  • S1S_1 可以描述为:

vkTx=0, k=1,...,n2 v_k^Tx=0,\ k=1,...,n-2

其中 vkv_k 是垂直于 a1,a2a_1,a_2 的不相关的向量(矩阵 [a1,a2]T[a_1,a_2]^T 的零空间(null space)),对于 R2\mathbf{R}^2 来说这个面就不存在了,对于 R3\mathbf{R}^3 及以上,这个就可以想象成 a1,a2a_1,a_2 形成的超平面。

  • S2S_2 可以描述为:

c1Ta1c1Txc1Ta1 -|c_1^Ta_1|\le c_1^Tx\le |c_1^Ta_1|

其中 c1=a1a1Ta2a222a2c_1=a_1-\dfrac{a_1^Ta_2}{\|a_2\|_2^2}a_2,这个可以理解为平行四边形的中心到右边的那个边做了一个垂线,中心到垂足形成的向量即为 c1c_1(不理解的话就画一画),xx 就是空间内任意一个向量,要满足的约束其实就是该向量和 c1c_1 做内积的绝对值要小于等于 c122\|c_1\|_2^2c1Ta1=c122|c_1^Ta_1|=\|c_1\|_2^2,额不理解的话就画图),这整个的意思就是限制向量 xx 在平行四边形的左右两边之内。

S3S_3 可以描述为:

c2Ta2c2Txc2Ta2 -|c_2^Ta_2|\le c_2^Tx\le |c_2^Ta_2|

其中 c2=a2a2Ta1a122a1c_2=a_2-\dfrac{a_2^Ta_1}{\|a_1\|_2^2}a_1,这个和 S2S_2 的道理是一样的,意思是限制 xx 在平行四边形的上下两边内。

总和起来就可以得到 2n2n 个线性不等式的约束:

在这里插入图片描述

b

是一个多面体,xx 的每一个分量大于等于零,然后整体由三个等式约束。

c

不是一个多面体,它是单位球({xx21}\{x|\|x\|_2\le 1\})和非负象限 R+n\mathbf{R}_+^n 的相交部分。根据柯西-施瓦茨不等式:

xTy1 for all y with y2=1    x21 x^Ty\le 1\text{ for all }y\text{ with }\|y\|_2=1\iff\|x\|_2\le 1

多面体的定义是多个半空间的相交部分,这里是无穷多个半平面的相交。

d

是一个多面体,SS 是集合 {xxk1,k=1,...,n}\{x||x_k|\le1,k=1,...,n\} 与非负象限 R+n\mathbf{R}_+^n 的交集,即证明:

xTy1 for all y with i=1nyi=1    xi1,i=1,...,n x^Ty\le 1\text{ for all }y\text{ with }\sum_{i=1}^n|y_i|=1\iff|x_i|\le 1,i=1,...,n

首先假设 xi1|x_i|\le1 ,则有:

xTy=ixiyiixiyiiyi=1 x^Ty=\sum_{i}x_iy_i\le\sum_i|x_i||y_i|\le\sum_{i}|y_i|=1

然后再假设 xx 是一个满足 xTy1,iyi=1x^Ty\le 1,\sum_i|y_i|=1 的一个非零向量,令 xk=maxixi|x_k|=\max_i|x_i| ,并令 ykxk=xk,yi=0(ik)y_kx_k=|x_k|,y_i=0(i\not=k),则有:

xTy=ixiyi=ykxk=xk=maxixi x^Ty=\sum_ix_iy_i=y_kx_k=|x_k|=\max_i|x_i|

maxixi1\max_i|x_i|\le1,因此可以用有限的线性不等式来表示 SS,即为非负象限与 {x1x1}\{x|-\mathbf{1}\preceq x\preceq\mathbf{1}\} 之间的交集,即 2n2n 个线性不等式的解:

在这里插入图片描述

2.13

在这里插入图片描述
外积的圆锥壳:考虑秩为 kk 的外积的集合,定义为 {XXTXRn×k,rank X=k}\{XX^T|X\in\mathbf{R}^{n\times k},\mathbf{rank}\ X=k\}。描述其圆锥壳。

首先可以知道 XXT0XX^T\succeq0,并且 rank(XXT)=k\mathbf{rank}(XX^T)=k,也就是说题目中这个集合就是秩为 kk 的半正定矩阵的集合,先说答案:这个集合的圆锥壳是秩 k\ge k 的半正定矩阵集合再并上零矩阵。

一个集合的圆锥壳记为该集合元素的正组合,假设组合的秩 <k<k,即令 A,BA,B 为秩为 kk 的半正定矩阵,rank(A+B)=r<k\mathbf{rank}(A+B)=r<k,令 VRn×(nr)V\in\mathbf{R}^{n\times(n-r)}A+BA+B 零空间中的向量组成的矩阵,即 R(V)=N(A+B)\mathcal{R}(V)=\mathcal{N}(A+B),即:

VT(A+B)V=VTAV+VTBV=0 V^T(A+B)V=V^TAV+V^TBV=0

又因为 A,B0A,B\succeq0,因此 VTAV=VTBV=0V^TAV=V^TBV=0,所以 rank Ar,rank Br\mathbf{rank}\ A\le r,\mathbf{rank}\ B\le r ,与之前 A,BA,B 的秩为 kk 的假设矛盾!

因此该集合的的圆锥壳是秩 k\ge k 的半正定矩阵集合再并上零矩阵。

2.22

在这里插入图片描述
分离超平面定理(sepqrating hyperplane theorem)说的是:假设 C,DC,D 是非空的不相交的凸集,即 CS=C\cap S=\varnothing,则存在 a0,ba\not=0,b 使得 aTxb,xCa^Tx\le b,x\in C 以及 aTxb,xDa^Tx\ge b,x\in D 成立。也就是说仿射函数 aTxba^Tx-bCC 上非正,在 DD 上非负。超平面 {xaTx=b}\{x|a^Tx=b\} 被称作 C,DC,D 的分离超平面,如下图所示:

在这里插入图片描述
在原始的证明中证明的是假如两个集合中存在某两个点的距离刚好等于两个集合的距离,那么这两个集合之间存在分离超平面,关键在于两个集合间距离的定义为:

dist(C,D)=inf{uv2uC,vD} \mathbf{dist}(C,D)=\mathrm{inf}\{\|u-v\|_2|u\in C,v\in D\}

其中 inf\mathrm{inf} 表示下确界,意思是小于等于集合中所有元素的最大值,对于明确存在最小值的集合来说,这个下确界就等于集合中的最小值,而对于开集来说,比如 {x1<x<3}\{x|1<x<3\} ,该集合的下确界就为 11 ,但是 11 并不在这个集合中。所以书本中的证明只在 C,DC,D 是闭集,并且其中一个集合是有界的情况下才成立,这道题目要求证明的就是更加一般的情况,也就是考虑 C,DC,D 集合为开,在这两个集合中不能找出两个元素之间的距离刚好等于两个集合之间的距离。

要分成两种情况进行讨论:

  1. 假设 0∉cl S0\not\in\mathbf{cl}\ S ,即 00 不在集合 SS 的闭包上,SS 的闭包指的是 SS 的内部点连通其边界上的点形成的集合,假如 SS 本身就是闭集,那么闭包就等于它自己,假如是开的,那么闭包就等于它自己并上它的边界。此时对集合 {0}\{0\}cl S\mathbf{cl}\ S 应用已经证明过的部分,即在集合 {0}\{0\} 和集合 cl S\mathbf{cl}\ S 之间是存在分离超平面的(因为这两个集合都是闭集且其中有一个集合有界!),因此存在 a0a\not=0 使得
    aT(xy)>0 a^T(x-y)>0
    对于所有 xycl Sx-y\in\mathbf{cl}\ S 成立,因此对于所有 xySx-y\in SaTx>aTya^Tx>a^Ty 对于所有 xC,yDx\in C,y\in D 成立。

  2. 假设 0cl S0\in\mathbf{cl}\ S ,由于 0∉S0\not\in S (两集合不相交),因此 00 肯定在 SS 的边界上,因此这样一来我们就不能用第一种情况里的方法了,因为 cl S\mathbf{cl}\ S{0}\{0\} 这两个集合是重叠的,无法应用书中已经证明的部分。再分情况进行讨论:假如 SS 的内部是空的,也就是说,他在一个超平面 {zaTz=b}\{z|a^Tz=b\} 中,又因为这个超平面通过原点,因此 b=0b=0,因此对于所有 xC,yDx\in C,y\in D,我们都有 aTx=aTya^Tx=a^Ty,这就是一个很 trivial 的分离超平面(这个例子可以脑补一下,就是两个集合 C,DC,D 是紧紧贴在这个超平面两侧的,他们中的元素无限接近这个超平面,但是永远到不了);然后再假如 SS 的内部不空(也就是说这两个集合只有一小部分是相互无限贴近的,其他部分中间可以离得比较远。。脑补脑补),然后考虑集合 Sϵ={zB(z,ϵ)S}S_{-\epsilon}=\{z|B(z,\epsilon)\sube S\} ,其中 B(z,ϵ)B(z,\epsilon) 是中心为 zz ,半径为 ϵ>0\epsilon>0 的欧几里得球,直观来讲,这个集合就是把原集合 SS 向里面收缩了 ϵ\epsilon ,这样得到的效果就是 cl Sϵ\mathbf{cl}\ S_{-\epsilon} 是闭集且凸,并且该集合不包含 00,因此我们就可以再愉快地用课本上已经证明过的部分啦,该集合可以用一个法线向量为 a(ϵ)a(\epsilon) 的超平面与 {0}\{0\} 分隔开:a(ϵ)Tz>0 for all zSϵa(\epsilon)^Tz>0\text{ for all }z\in S_{-\epsilon} ,不失一般性,我们可以假设 a(ϵ)2=1\|a(\epsilon)\|_2=1。现在令 ϵk,k=1,2,...\epsilon_k,k=1,2,... 为一个正序列,并有 limkϵk=0\lim_{k\to\infty}\epsilon_k=0,由于 a(ϵk)2=1\|a(\epsilon_k)\|_2=1 ,因此序列 a(ϵk)a(\epsilon_k) 是收敛的,定义这个序列最终可以收敛到 aˉ\bar{a} ,于是对于所有的 kka(ϵk)Tz>0 for all zSϵka(\epsilon_k)^Tz>0\text{ for all }z\in S_{-\epsilon_k} ,因此对于所有 zint Sz\in\mathbf{int}\ SaˉTz>0\bar{a}^Tz>0,也就是对于所有的 zSz\in SaˉTz0\bar{a}^Tz\ge 0 ,即对于所有的 xC,yDx\in C,y\in DaˉTxaˉTy\bar{a}^Tx\ge\bar{a}^Ty

A1.5

在这里插入图片描述
在这里插入图片描述
本题要证明两个闭凸锥交集的对偶等于各自对偶的和。即令 C,DC,DRn\mathbf{R}^n 上的闭凸锥,证明:

(CD)=C+D (C\cap D)^*=C^*+D^*

其中 ++ 表示集合加法:C+DC^*+D^*{u+vuC,vD}\{u+v|u\in C^*,v\in D^*\} ,证明步骤如下:

  1. 证明 CDC\cap DC+DC^*+D^* 为凸锥(实际上,这两个是闭的,但是不要求证明)
  2. 证明 (CD)C+D(C\cap D)^*\supseteq C^*+D^*
  3. 然后证明 (CD)C+D(C\cap D)^*\subseteq C^*+D^* ,证明思路是:首先证明
    (CD)C+D    CD(C+D) (C\cap D)^*\subseteq C^*+D^*\iff C\cap D\supseteq(C^*+D^*)^*
    其中可以使用以下结论:如果 KK 是一个闭凸锥,那么 K=KK^{**}=K ,之后再证明:CD(C+D)C\cap D\supseteq(C^*+D^*)^* ,最后得到结论 (CD)=C+D(C\cap D)^*=C^*+D^*
  4. 证明多面体锥 V={xAx0}V=\{x|Ax\succeq0\} 得对偶可以表示为:
    V={ATvv0} V^*=\{A^Tv|v\succeq0\}

解答:

  1. 证明 CDC\cap DC+DC^*+D^* 为凸锥:假设 xCDx\in C\cap D ,这意味着 xCx\in CxDx\in D ,还意味着对于任意 θ0\theta\ge0 来说, θxC\theta x\in C 以及 θxD\theta x\in D ,因此对于任意的 θ0\theta\ge0,有 θxCD\theta x\in C\cap D ,故 CDC\cap D 是一个锥,并且它是凸的,因为两个凸集的交集仍是凸集。为了证明 C+DC^*+D^* 是一个闭凸锥,注意到 CC^*DD^* 都是凸锥,因此 C+DC^*+D^*CDC^*\cap D^* 的锥包,因此是一个凸锥。
  2. 证明 (CD)C+D(C\cap D)^*\supseteq C^*+D^*:假设 xC+Dx\in C^*+D^* ,我们可以把 xx 写成 x=u+vx=u+v ,其中 uC,vDu\in C^*,v\in D^* ,根据对偶锥的定义,对于所有 yCy\in CuTy0u^Ty\ge0,对于所有 yDy\in DvTy0v^Ty\ge0 ,可以推出对于所有 yCDy\in C\cap DxTy=uTy+vTy0x^Ty=u^Ty+v^Ty\ge0 ,这意味着 x(CD)x\in(C\cap D)^* ,因此 (CD)C+D(C\cap D)^*\supseteq C^*+D^*
  3. 证明 (CD)C+D(C\cap D)^*\subseteq C^*+D^*:已经证过 CDC\cap DC+DC^*+D^* 是闭凸锥,这意味着 (CD)=CD(C\cap D)^{**}=C\cap D ,因此有:
    (CD)C+D    CD(C+D) (C\cap D)^*\subseteq C^*+D^*\iff C\cap D\supseteq(C^*+D^*)^*
    假设 x(C+D)x\in(C^*+D^*)^*,则对于所有 y=u+vy=u+vxTy0x^Ty\ge0,其中 uC,vDu\in C^*,v\in D^* ,可以写为对于所有的 uC,vDu\in C^*,v\in D^*xTu+xTv0x^Tu+x^Tv\ge0 。因为 0C0\in C^* 并且 0D0\in D^* ,令 v=0v=0,则对于所有的 uCu\in C^*xTu0x^Tu\ge0,令 u=0u=0,则对于所有的 vDv\in D^*xTv0x^Tv\ge0。这样可以推出 xC=Cx\in C^{**}=C 并且 xD=Dx\in D^{**}=D ,即 xCDx\in C\cap D 。因此原式证毕。
  4. 证明多面体锥 V={xAx0}V=\{x|Ax\succeq0\} 的对偶可以表示为:V={ATvv0}V^*=\{A^Tv|v\succeq0\}:使用本题证明的式子,可以得到:
    V={xa1Tx0}++{xamTx0} V^*=\{x|a_1^Tx\ge0\}^*+\cdots+\{x|a_m^Tx\ge0\}^*
    其中 {xaiTx0}\{x|a_i^Tx\ge0\} 的对偶是集合 {θaiθ0}\{\theta a_i|\theta\ge0\} (注:其中 θ\theta 为常数,半平面的对偶是法线所在的射线,脑补一下~),因此我们得到:
    V={θa1θ0}++{θamθ0}={θ1a1++θmamθi0,i=1,...,m}={ATθθ0} \begin{aligned} V^*&=\{\theta a_1|\theta\ge0\}+\cdots+\{\theta a_m|\theta\ge0\}\\ &=\{\theta_1a_1+\cdots+\theta_ma_m|\theta_i\ge0,i=1,...,m\}\\ &=\{A^T\mathbf{\theta}|\theta\succeq0\} \end{aligned}
    即:V={ATvv0}V^*=\{A^Tv|v\succeq0\} (妙啊!)

A1.9

在这里插入图片描述
确定以下 Sn\mathbf{S}^n 的子集是否为凸集:

(a) 相关矩阵的集合:Cn={CS+nCii=1,i=1,...,n}\mathcal{C}^n=\{C\in\mathbf{S}_+^n|C_{ii}=1,i=1,...,n\}

(b) 非负相关矩阵的集合:{CCnCij0,i,j=1,...,n}\{C\in\mathcal{C}^n|C_{ij}\ge0,i,j=1,...,n\}

(c) 高相关性的相关矩阵的集合: {CCnCij0.8,i,j=1,...,n}\{C\in\mathcal{C}^n|C_{ij}\ge0.8,i,j=1,...,n\}

(a) 令 XCn,YCnX\in\mathcal{C}^n,Y\in\mathcal{C}^n, 因此有 XS+nX\in\mathbf{S}_+^n (也就是说 XX 是一个半正定矩阵),并且 Xii=1,i=1,...,nX_{ii}=1,i=1,...,n,而且 YS+n,Yii=1,i=1,...,nY\in \mathcal{S}_+^n,Y_{ii}=1,i=1,...,n ,考虑 Z=θX+(1θ)Y,θ[0,1]Z=\theta X+(1-\theta)Y,\theta\in[0,1],显然 ZS+nZ\in \mathbf{S}_{+}^n (因为 S+n\mathcal{S}_+^n 是凸的),并且也显然有 Zii=1,i=1,...,nZ_{ii}=1,i=1,...,n ,因此有 ZCnZ\in\mathcal{C}^n ,故 Cn\mathcal{C}^n 是凸集。

(b) 同理,令 X,YX,Y 都在这个集合内,考虑 Z=θX+(1θ)Y,θ[0,1]Z=\theta X+(1-\theta)Y,\theta\in[0,1],由于已经证过 Cn\mathcal{C}^n 为凸集,因此 ZCnZ\in\mathcal{C}^n ,只需再验证 Zij0,i,j=1,...,nZ_{ij}\ge0,i,j=1,...,n 是否成立,显然成立(因为 Xij0,Yij0,i=1,...,nX_{ij}\ge0,Y_{ij}\ge0,i=1,...,n) ,因此该集合也是凸集。

(c) 这个集合也是凸集,证明方法类似于 (b),不再赘述(手动狗头)

posted @ 2020-05-03 10:40  winechord  阅读(143)  评论(0编辑  收藏  举报