Convex Optimization: 3 Convex functions 作业

3.1, 3.2, 3.22, 3.28, 3.39, A2.23, A2.42, A2.46.

3.1

在这里插入图片描述
这道题考的是凸函数的定义。假设一个函数 f:RRf:\mathbf{R}\to\mathbf{R} ,并且 a,bdom fa,b\in\mathbf{dom}\ fa<ba<b

(a)证明对于所有的 x[a,b]x\in[a,b] 都有:

f(x)bxbaf(a)+xabaf(b) f(x)\le\frac{b-x}{b-a}f(a)+\frac{x-a}{b-a}f(b)

证明:显然 由凸函数的定义,存在 θ[0,1]\theta\in[0,1] 使得

f(θx+(1θ)y)θf(x)+(1θ)f(y) f(\theta x+(1-\theta)y)\le\theta f(x)+(1-\theta)f(y)

y=x,θ=bxbay=x,\theta=\dfrac{b-x}{b-a},则有:

f(x)bxbaf(a)+xabaf(b) f(x)\le\frac{b-x}{b-a}f(a)+\frac{x-a}{b-a}f(b)

(b)证明对于所有的 x(a,b)x\in(a,b) ,有:

f(x)f(a)xaf(b)f(a)baf(b)f(x)bx \frac{f(x)-f(a)}{x-a}\le\frac{f(b)-f(a)}{b-a}\le\frac{f(b)-f(x)}{b-x}

如图:
在这里插入图片描述
这个说的就是 ab 的斜率要大于 ax 之间的斜率,小于 xb 之间的斜率。

(c)假设 ff 可微,用 (b) 中的结果证明:

f(a)f(b)f(a)baf(b) f'(a)\le\frac{f(b)-f(a)}{b-a}\le f'(b)

证明:对 (b) 的结果,左边令 xax\to a,右边令 xbx\to b ,即可得 (c)

(d)假设 ff 二阶可微,用 (c) 中的结果证明 f(a)0f''(a)\ge0 并且 f(b)0f''(b)\ge0

证明:由 (c)可得:

f(b)f(a)ba0 \frac{f'(b)-f'(a)}{b-a}\ge0

取极限 bab\to a 可得 f(a)0f''(a)\ge0 ,同理可得 f(b)0f''(b)\ge0

3.2

在这里插入图片描述
对于第一个图来说,这个可以是 quasiconvex 的,因为根据定义,其 sublevel sets:

Sα={xdom ff(x)α} S_\alpha=\{x\in\mathbf{dom}\ f|f(x)\le\alpha\}

是凸的(你在这个涂横着来一刀,这个面下面和这个函数形成了一个凸集),同理,这个肯定不是 concave 或 quasiconcave ,因为其上面的集合不是凸的;

这个不是凸的,因为沿下图的路径 I 得到的曲线看出来其不是凸的:

在这里插入图片描述
在这里插入图片描述
第二个图可能是凹的,也可能是 quasiconcave,但不能是凸的或 quasiconvex 因为其 sublevel sets 不是凸的。

3.22

在这里插入图片描述
证明以下函数是凸函数:

(a)f(x)=log(log(i=1meaiTx+bi))f(x)=-\log(-\log(\sum_{i=1}^me^{a_i^Tx+b_i})) ,定义域为 {xi=1meaiT+bi<1}\{x|\sum_{i=1}^me^{a_i^T+b_i<1}\} ,可以直接使用结论:log(i=1neyi)\log(\sum_{i=1}^ne^{y_i}) 是凸的(注:log-sum-exp 的凸性是通过二阶导证的)。

首先复习一下 composition rules,对于函数 f(x)=h(g(x))f(x)=h(g(x)) 来说,满足以下两个条件之一,ff 就是凸的:

  1. gg 是凸的,hh 是凸的,并且 h~\tilde{h} 不减
  2. gg 是凹的,hh 是凸的,并且 h~\tilde{h} 不增

这个怎么记呢?可以这样记:外面函数 hh 总要求是凸的,里面 gg 则不同,那么如何记忆 gg 的凹凸与增减之间的对应的,脑补 f(x)f''(x) 的形式,里面会有一项 hgh'g'' ,若 gg 凸,则 g0g''\ge0,故要求 h0h'\ge0 ,即 hh 不减;若 gg 凹,则 g0g''\le0 ,故要求 h0h'\le0,即 hh 不增。

(证明方法是对 ff 求二阶导,然后应用链式法则得到 g,hg,h 的相关一二阶导数的要求)(如下)

在这里插入图片描述
所以对于这道题,令 g(x)=log(i=1meaiTx+bi)g(x)=-\log(\sum_{i=1}^me^{a_i^Tx+b_i}) 则这玩意儿是凹的,所以我们来看上面说的第二个条件。又知 h(x)=log(x)h(x)=-\log(x) 是凸的,并且不增,因此也满足第二个条件,所以 ff 是凸的。 Done.

(b) f(x,u,v)=uvxTxf(x,u,v)=-\sqrt{uv-x^Tx} ,定义域为 {(x,u,v)uv>xTx,u,v>0}\{(x,u,v)|uv>x^Tx,u,v>0\} ,可以使用结论:xTx/ux^Tx/u(x,u),u>0(x,u),u>0 上是凸的,x1x2-\sqrt{x_1x_2}R++2\mathbf{R}_{++}^2 上是凸的。

f(x,u,v)=uvxTx=u(vxTxu) \begin{aligned} f(x,u,v)&=-\sqrt{uv-x^Tx}\\ &=-\sqrt{u(v-\frac{x^Tx}{u})} \end{aligned}

外部函数 h(x1,x2)=x1x2h(x_1,x_2)=-\sqrt{x_1x_2} 为凸且单调递减,内部函数 g1(u,v,x)=ug_1(u,v,x)=u 以及 g2(u,v,x)=vxTx/ug_2(u,v,x)=v-x^Tx/u 都是凹函数,因此 f(u,v,x)=h(g(u,v,x))f(u,v,x)=h(g(u,v,x)) 为凸。

(c)f(x,u,v)=log(uvxTx)f(x,u,v)=-\log(uv-x^Tx) ,定义域为 {(x,u,v)uv>xTx,u,v>0}\{(x,u,v)|uv>x^Tx,u,v>0\}

f(x,u,v)=logulog(vxTx/u) f(x,u,v)=-\log{u}-\log(v-x^Tx/u)

第一项是凸的,第二项内部 vxTx/uv-x^Tx/u 是凹的,因为 vv 是线性的,xTx/ux^Tx/u{(x,u)u>0}\{(x,u)|u>0\} 上是凸的,又因为外部函数 logt-\log{t} 凸且单调减,因此第二部分凸。

(d)f(x,t)=(tpxpp)1/pf(x,t)=-(t^p-\|x\|_p^p)^{1/p} ,其中 p>1p>1 ,并且定义域为 {(x,t)txp}\{(x,t)|t\ge\|x\|_p\} ,可以使用的结论有:xpp/up1\|x\|_p^p/u^{p-1}(x,u),u>0(x,u),u>0 是凸的(证明见练习3.23),并且 x1/py11/p-x^{1/p}y^{1-1/p}R+2\mathbf{R}_+^2 上是凸的(证明见练习3.16)。

f(x,t)=(tp1(txpptp1))1/p=t11/p(txpptp1)1/p \begin{aligned} f(x,t)&=-(t^{p-1}(t-\frac{\|x\|_p^p}{t^{p-1}}))^{1/p}\\ &=-t^{1-1/p}(t-\frac{\|x\|_p^p}{t^{p-1}})^{1/p}\\ \end{aligned}

其中外部函数 h(y1,y2)=y11/py211/ph(y_1,y_2)=-y_1^{1/p}y_2^{1-1/p} 是凸的并且单减,内部函数为:

g1(x,t)=t11/p,g2(x,t)=txpptp1 g_1(x,t)=t^{1-1/p},\quad g_2(x,t)=t-\frac{\|x\|_p^p}{t^{p-1}}

这两个函数都是凹函数,因此总体为凸。

(e)f(x,t)=log(tpxpp)f(x,t)=-\log(t^p-\|x\|_p^p),其中 p>1p>1 ,定义域为 {(x,t)t>xp}\{(x,t)|t>\|x\|_p\}

f(x,t)=logtp1log(txpp/tp1)=(p1)logtlog(txpp/tp1) \begin{aligned} f(x,t)&=-\log{t^{p-1}}-\log(t-\|x\|_p^p/t^{p-1})\\ &=-(p-1)\log{t}-\log(t-\|x\|_p^p/t^{p-1}) \end{aligned}

第一项是凸的,第二个内部是一个凹函数,外部是一个单减的凸函数,因此整体是凸。

3.28

在这里插入图片描述
考的是能够保持凸性的操作。

用仿射函数的 pointwise supremum 来表示一个凸函数。这个问题是对书上 83 页结论的扩展,不同的是此处 domfRn\mathbf{dom}f\neq \mathbf{R}^n,令 f:RnRnf:\mathbf{R}^n\to\mathbf{R}^n 是一个凸函数,定义 f~:RnR\tilde{f}:\mathbf{R}^n\to\mathbf{R} 为所有 ff 的全局 unerestimators 的仿射函数的 pointwise supremum:

f~(x)=sup{g(x)g affine,g(z)f(z) for all z} \tilde{f}(x)=\sup\{g(x)|g\text{ affine,}g(z)\le f(z)\text{ for all }z\}

证明:

(a)证明对于 xint dom fx\in\mathbf{int\ dom\ }f ,有 f(x)=f~(x)f(x)=\tilde{f}(x)

令点 (x,f(x))(x,f(x))epi f\mathbf{epi}\ f 的边界上(epi f\mathbf{epi}\ f 就是该函数上面的点集),(不选择 int epi f\mathbf{int\ epi\ }f 是因为当这个点在 int epi f\mathbf{int\ epi\ }f 上时,对于任意小的 ϵ>0\epsilon>0(x,f(x)ϵ)epi f(x,f(x)-\epsilon)\in\mathbf{epi\ }f ,这是不可能的,根据 2.5.2 节的结果,可知对于 (x,f(x))(x,f(x)) 处的 epi f\mathbf{epi\ }f ,存在一个支持超平面,即 aRn,bRa\in\mathbf{R}^n,b\in\mathbf{R} ,使得:

aTz+btaTx+bf(x) for all (z,t)epi f a^Tz+bt\ge a^Tx+bf(x)\text{ for all } (z,t)\in \mathbf{epi\ }f

如果 (z,t)epi f(z,t)\in\mathbf{epi\ }f ,则 tt 可以任意大,因此我们得出结论 b0b\ge0

假设 b=0b=0 ,则:

aTzaTx for all zdom f a^Tz\ge a^Tx\text{ for all }z\in\mathbf{dom\ }f

xint dom fx\in\mathbf{int\ dom}\ f 相矛盾!因此 b>0b>0 。上述不等式同除以 bb 得到:

tf(x)+(a/b)T(xz) for all (z,t)epi f t\ge f(x)+(a/b)^T(x-z)\text{ for all }(z,t)\in\mathbf{epi}\ f

因此仿射函数:

g(z)=f(x)+(a/b)T(xz) g(z)=f(x)+(a/b)^T(x-z)

ff 的 affine global underestimator ,所以根据 f~\tilde{f} 的定义:

f(x)f~(x)g(x) f(x)\ge\tilde{f}(x)\ge g(x)

但是 g(x)=f(x)g(x)=f(x),因此必须有 f(x)=f~(x)f(x)=\tilde{f}(x)

(b)证明如果 ff 是闭,那么 f=f~f=\tilde{f} (即 epi f\mathbf{epi\ }f 是一个闭集)

  • A3.3 :一个函数 f:RnRf:\mathbf{R}^n\to\mathbf{R} 是闭的,如果对 αR\forall\alpha\in\mathbf{R} ,其 sublevel set

{xdom ff(x)α} \{x\in\mathbf{dom\ }f|f(x)\le\alpha\}

是闭的。这等价于 ff 的 epigraph

epi f={(x,t)Rn+1xdom f,f(x)t} \mathbf{epi}\ f=\{(x,t)\in\mathbf{R}^{n+1}|x\in\mathbf{dom\ }f,f(x)\le t\}

是闭的。

一个闭的凸集是所有包含这个集合半平面的交集(见第二章,例 2.20)。对 epi f\mathbf{epi\ }f 使用这个结论,定义:

H={(a,b,c)Rn+2(a,b)0,inf(x,t)epi f(aTx+bt)c} H=\{(a,b,c)\in\mathbf{R}^{n+2}|(a,b)\neq0,\inf_{(x,t)\in\mathbf{epi\ }f}(a^Tx+bt)\ge c\}

粗略来说,HH 是包含 epi f\mathbf{epi\ }f 的所有半平面的集合,根据第二章的结论,

epi f=(a,b,c)H{(x,t)aT+btc} \mathbf{epi\ }f=\bigcap_{(a,b,c)\in H}\{(x,t)|a^T+bt\ge c\}

显然 HH 中所有元素都满足 b0b\ge0 ,实际上 b>0b>0,因此仿射函数:

h(x)=(a/b)Tx+c/b h(x)=-(a/b)^Tx+c/b

f\le f 的,因为对于 (x,t)epi f\forall(x,t)\in\mathbf{epi}\ f,有

tf(x)(a/b)Tx+c/t=h(x) t\ge f(x)\ge-(a/b)^Tx+c/t=h(x)

相反地,假如 h(aTx+c)fh(-a^Tx+c)\le f(a,1,c)H(a,1,c)\in H ,需要证明:

epi f=(a,b,c)H,b>0{(x,t)aTx+btc} \mathbf{epi\ }f=\bigcap_{(a,b,c)\in H,b>0}\{(x,t)|a^Tx+bt\ge c\}

也就是说 epi f\mathbf{epi}\ f 是所有包含 epi f\mathbf{epi}\ f 的非垂直的半平面的交集。然后证明:

(a,b,c)H,b>0{(x,t)aTx+btc}=(a,b,c)H{(x,t)aTx+btc}(1) \bigcap_{(a,b,c)\in H,b>0}\{(x,t)|a^Tx+bt\ge c\}=\bigcap_{(a,b,c)\in H}\{(x,t)|a^Tx+bt\ge c\} \tag{1}

显然左边的包含右边的,现在证假如在左边,那么它一定在右边,用反证法,首先设 (xˉ,tˉ)(\bar{x},\bar{t}) 在左边的集合中,即:

aTxˉ+btˉc a^T\bar{x}+b\bar{t}\ge c

对于所有的半平面 aTx+btca^Tx+bt\ge c 并且不是垂直的(即 b>0b>0)并且包含 epi f\mathbf{epi\ } f ,假设 (xˉ,tˉ)(\bar{x},\bar{t}) 不在右边的集合中,即存在 (a~,b~,c~)H(\tilde{a},\tilde{b},\tilde{c})\in Hb~=0\tilde{b}=0 也是必要的),使得:

a~Txˉ<c~ \tilde{a}^T\bar{x}<\tilde{c}

HH 至少包含一个元素 (a0,b0,c0)(a_0,b_0,c_0) 其中 b0>0b_0>0 (要不然 epi f\mathbf{epi\ }f 将会是垂直半平面们的交集了),考虑一个半平面为 (a~,0,c~)+ϵ(a0,b0,c0)(\tilde{a},0,\tilde{c})+\epsilon(a_0,b_0,c_0) ,其中 ϵ>0\epsilon>0 ,这个半平面是非垂直的,并且对于 (x,t)epi f\forall (x,t)\in \mathbf{epi\ }f ,它是包含 epi f\mathbf{epi\ }f 的:

(a~+ϵa0)Tx+ϵb0ta~Tx+ϵ(a0T+b0t)c~+ϵc0 (\tilde{a}+\epsilon a_0)^Tx+\epsilon b_0 t\ge\tilde{a}^Tx+\epsilon(a_0^T+b_0t)\ge\tilde{c}+\epsilon c_0

原因是 a~Txc~\tilde{a}^Tx\ge\tilde{c}a0Tx+b0tc0a_0^Tx+b_0t\ge c_0 都包含 epi f\mathbf{epi\ }f ,但是对于 ϵ>0\epsilon>0 ,有:

(a~+ϵa0)Tx+ϵb0ta~Tx+ϵ(a0T+b0t)<c~+ϵc0 (\tilde{a}+\epsilon a_0)^Tx+\epsilon b_0 t\ge\tilde{a}^Tx+\epsilon(a_0^T+b_0t)<\tilde{c}+\epsilon c_0

因此半平面不包含 (xˉ,tˉ)(\bar{x},\bar{t}) ,这和假设矛盾,因此 (1)(1) 是成立的。

3.39

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
共轭函数的性质。

(a)一个凸函数加上一个仿射函数的共轭:定义 g(x)=f(x)+cTx+dg(x)=f(x)+c^Tx+d ,其中 ff 是凸的,用 ff^* 来表示 gg^*

g(y)=sup(yTxf(x)cTxd)=sup((yc)Txf(x))d=f(yc)d \begin{aligned} g^*(y)&=\sup(y^Tx-f(x)-c^Tx-d)\\ &=\sup((y-c)^Tx-f(x))-d\\ &=f^*(y-c)-d \end{aligned}

(b)透视函数的共轭:用 ff^* 来表示凸函数 ff 的透视函数:

g(y,s)=supx/tdom f,t>0(yTx+stt(f(x/t)))=supt>0supx/tdom f(t(yT(x/t)+sf(x/t)))=supt>0t(s+supx/tdom f(yT(x/t)f(x/t)))=supt>0t(s+f(y))={0s+f(y)0otherwise. \begin{aligned} g^*(y,s)&=\sup_{x/t\in\mathbf{dom\ }f,t>0}(y^Tx+st-t(f(x/t)))\\ &=\sup_{t>0}\sup_{x/t\in\mathbf{dom\ }f}(t(y^T(x/t)+s-f(x/t)))\\ &=\sup_{t>0}t(s+\sup_{x/t\in\mathbf{dom\ }f}(y^T(x/t)-f(x/t)))\\ &=\sup_{t>0}t(s+f^*(y))\\ &=\begin{cases} 0&s+f^*(y)\le0\\ \infty&\text{otherwise.} \end{cases} \end{aligned}

(c)共轭以及最小:令 f(x,z)f(x,z)(x,z)(x,z) 上的凸函数,定义 g(x)=infzf(x,z)g(x)=\inf_zf(x,z) ,用 ff^* 来表示 gg^*

g(y)=supx(xTyinfzf(x,z))=supx,z(xTyf(x,z))=f(y,0) \begin{aligned} g^*(y)&=\sup_x(x^Ty-\inf_zf(x,z))\\ &=\sup_{x,z}(x^Ty-f(x,z))\\ &=f^*(y,0) \end{aligned}

作为应用,用 h,A,bh^*,A,b 来表示函数 g(x)=infz{h(z)Az+b=x}g(x)=\inf_z\{h(z)|Az+b=x\} 的共轭,其中 hh 是凸的:

首先我们要找到 f(x,z)f(x,z)

f(x,z)={h(z)Az+b=xotherwise. f(x,z)=\begin{cases} h(z)&Az+b=x\\ \infty&\text{otherwise.} \end{cases}

则有:

f(y,v)=sup(yTx+vTzf(x,z))=supAz+b=x(yTx+vTzh(z))=supz(yT(Az+b)+vTzh(z))=bTy+supz(yTAz+vTzh(z))=bTy+h(ATy+v) \begin{aligned} f^*(y,v)&=\sup(y^Tx+v^Tz-f(x,z))\\ &=\sup_{Az+b=x}(y^Tx+v^Tz-h(z))\\ &=\sup_z(y^T(Az+b)+v^Tz-h(z))\\ &=b^Ty+\sup_z(y^TAz+v^Tz-h(z))\\ &=b^Ty+h^*(A^Ty+v) \end{aligned}

我感觉应该是我上面的这种写法,不知道答案为啥这样写:

在这里插入图片描述
但是结果一样:

g(y)=f(y,0)=bTy+h(ATy) g^*(y)=f^*(y,0)=b^Ty+h^*(A^Ty)

(d)共轭的共轭:证明假如 ff 是凸的且闭的,那么 f=ff=f^{**} (一个函数其 epigraph 是闭的,则其是闭的),提示:证明 ff^{**}ff 所有的 affine global underestimators 的点式上确界,然后用练习 3.28 的结论。

根据定义:

f(y)=supx(yTxf(x)) f^*(y)=\sup_x(y^Tx-f(x))

假如 ydom fy\in\mathbf{dom\ }f^* ,则仿射函数 h(x)=yTxf(y)h(x)=y^Tx-f^*(y) 小于等于 ff ,反之,假如 h(x)=aTx+bh(x)=a^Tx+b 小于等于 ff ,则 adom fa\in\mathbf{dom\ }f^* 并且 f(a)bf^*(a)\le-b ,那么所有小于等于 ff 的仿射函数的集合正好就等于所以函数 h(x)=yTx+ch(x)=y^Tx+c 的集合,其中:

ydom f,cf(y). y\in\mathbf{dom\ }f^*,\quad c\le-f^*(y).

因此,根据练习 3.28 ,有:

f(x)=supydom f(yTxf(y))=f(y) f(x)=\sup_{y\in\mathbf{dom\ }f^*}(y^Tx-f^*(y))=f^{**}(y)

A2.23

在这里插入图片描述
证明以下函数 f:RnRf:\mathbf{R}^n\to\mathbf{R} 是凸的:

(a)f(x)=exp(g(x))f(x)=-\exp(-g(x)) ,其中 g:RnRg:\mathbf{R}^n\to\mathbf{R} 定义域是凸的,并且满足:

[2g(x)g(x)g(x)T1]0 \begin{bmatrix} \nabla^2g(x)&\nabla g(x)\\ \nabla g(x)^T&1 \end{bmatrix} \succeq0

其中 xdom gx\in\mathbf{dom\ }g

ff 的梯度以及 Hessian:

f(x)=eg(x)g(x)2f(x)=eg(x)2g(x)eg(x)g(x)g(x)T=eg(x)(2g(x)g(x)g(x)T)0 \begin{aligned} \nabla f(x)&=e^{-g(x)}\nabla g(x)\\ \nabla^2f(x)&=e^{-g(x)}\nabla^2g(x)-e^{-g(x)}\nabla g(x)\nabla g(x)^T\\ &=e^{-g(x)}(\nabla^2g(x)-\nabla g(x)\nabla g(x)^T)\\ &\succeq 0 \end{aligned}

因此 ff 凸。

(b)函数:

f(x)=max{APxbP is a permutation matrix} f(x)=\max\{\|APx-b\||P\text{ is a permutation matrix}\}

其中 ARm×n,bRmA\in\mathbf{R}^{m\times n},b\in\mathbf{R}^m

因为 ff 是带有参数 PPAPxb\|APx-b\| 的最大值,又因为 APxb\|APx-b\| 是凸函数,因此 ff 凸。

posted @ 2020-05-14 13:40  winechord  阅读(197)  评论(0编辑  收藏  举报