3.1, 3.2, 3.22, 3.28, 3.39, A2.23, A2.42, A2.46.
3.1
![在这里插入图片描述](https://img-blog.csdnimg.cn/202005071246315.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzM3Nzk1MjQ0,size_16,color_FFFFFF,t_70)
这道题考的是凸函数的定义。假设一个函数 f:R→R ,并且 a,b∈dom f 且 a<b 。
(a)证明对于所有的 x∈[a,b] 都有:
f(x)≤b−ab−xf(a)+b−ax−af(b)
证明:显然 由凸函数的定义,存在 θ∈[0,1] 使得
f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
令 y=x,θ=b−ab−x,则有:
f(x)≤b−ab−xf(a)+b−ax−af(b)
(b)证明对于所有的 x∈(a,b) ,有:
x−af(x)−f(a)≤b−af(b)−f(a)≤b−xf(b)−f(x)
如图:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200507131543556.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzM3Nzk1MjQ0,size_16,color_FFFFFF,t_70)
这个说的就是 ab 的斜率要大于 ax 之间的斜率,小于 xb 之间的斜率。
(c)假设 f 可微,用 (b) 中的结果证明:
f′(a)≤b−af(b)−f(a)≤f′(b)
证明:对 (b) 的结果,左边令 x→a,右边令 x→b ,即可得 (c)
(d)假设 f 二阶可微,用 (c) 中的结果证明 f′′(a)≥0 并且 f′′(b)≥0 。
证明:由 (c)可得:
b−af′(b)−f′(a)≥0
取极限 b→a 可得 f′′(a)≥0 ,同理可得 f′′(b)≥0
3.2
![在这里插入图片描述](https://img-blog.csdnimg.cn/2020050712465265.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzM3Nzk1MjQ0,size_16,color_FFFFFF,t_70)
对于第一个图来说,这个可以是 quasiconvex 的,因为根据定义,其 sublevel sets:
Sα={x∈dom f∣f(x)≤α}
是凸的(你在这个涂横着来一刀,这个面下面和这个函数形成了一个凸集),同理,这个肯定不是 concave 或 quasiconcave ,因为其上面的集合不是凸的;
这个不是凸的,因为沿下图的路径 I 得到的曲线看出来其不是凸的:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200508094035808.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzM3Nzk1MjQ0,size_16,color_FFFFFF,t_70)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200508094046892.png)
第二个图可能是凹的,也可能是 quasiconcave,但不能是凸的或 quasiconvex 因为其 sublevel sets 不是凸的。
3.22
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200507124721119.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzM3Nzk1MjQ0,size_16,color_FFFFFF,t_70)
证明以下函数是凸函数:
(a)f(x)=−log(−log(∑i=1meaiTx+bi)) ,定义域为 {x∣∑i=1meaiT+bi<1} ,可以直接使用结论:log(∑i=1neyi) 是凸的(注:log-sum-exp 的凸性是通过二阶导证的)。
首先复习一下 composition rules,对于函数 f(x)=h(g(x)) 来说,满足以下两个条件之一,f 就是凸的:
- g 是凸的,h 是凸的,并且 h~ 不减
- g 是凹的,h 是凸的,并且 h~ 不增
这个怎么记呢?可以这样记:外面函数 h 总要求是凸的,里面 g 则不同,那么如何记忆 g 的凹凸与增减之间的对应的,脑补 f′′(x) 的形式,里面会有一项 h′g′′ ,若 g 凸,则 g′′≥0,故要求 h′≥0 ,即 h 不减;若 g 凹,则 g′′≤0 ,故要求 h′≤0,即 h 不增。
(证明方法是对 f 求二阶导,然后应用链式法则得到 g,h 的相关一二阶导数的要求)(如下)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200509121726466.png)
所以对于这道题,令 g(x)=−log(∑i=1meaiTx+bi) 则这玩意儿是凹的,所以我们来看上面说的第二个条件。又知 h(x)=−log(x) 是凸的,并且不增,因此也满足第二个条件,所以 f 是凸的。 Done.
(b) f(x,u,v)=−uv−xTx ,定义域为 {(x,u,v)∣uv>xTx,u,v>0} ,可以使用结论:xTx/u 在 (x,u),u>0 上是凸的,−x1x2 在 R++2 上是凸的。
f(x,u,v)=−uv−xTx=−u(v−uxTx)
外部函数 h(x1,x2)=−x1x2 为凸且单调递减,内部函数 g1(u,v,x)=u 以及 g2(u,v,x)=v−xTx/u 都是凹函数,因此 f(u,v,x)=h(g(u,v,x)) 为凸。
(c)f(x,u,v)=−log(uv−xTx) ,定义域为 {(x,u,v)∣uv>xTx,u,v>0}
f(x,u,v)=−logu−log(v−xTx/u)
第一项是凸的,第二项内部 v−xTx/u 是凹的,因为 v 是线性的,xTx/u 在 {(x,u)∣u>0} 上是凸的,又因为外部函数 −logt 凸且单调减,因此第二部分凸。
(d)f(x,t)=−(tp−∥x∥pp)1/p ,其中 p>1 ,并且定义域为 {(x,t)∣t≥∥x∥p} ,可以使用的结论有:∥x∥pp/up−1 在 (x,u),u>0 是凸的(证明见练习3.23),并且 −x1/py1−1/p 在 R+2 上是凸的(证明见练习3.16)。
f(x,t)=−(tp−1(t−tp−1∥x∥pp))1/p=−t1−1/p(t−tp−1∥x∥pp)1/p
其中外部函数 h(y1,y2)=−y11/py21−1/p 是凸的并且单减,内部函数为:
g1(x,t)=t1−1/p,g2(x,t)=t−tp−1∥x∥pp
这两个函数都是凹函数,因此总体为凸。
(e)f(x,t)=−log(tp−∥x∥pp),其中 p>1 ,定义域为 {(x,t)∣t>∥x∥p}
f(x,t)=−logtp−1−log(t−∥x∥pp/tp−1)=−(p−1)logt−log(t−∥x∥pp/tp−1)
第一项是凸的,第二个内部是一个凹函数,外部是一个单减的凸函数,因此整体是凸。
3.28
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200507124743173.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzM3Nzk1MjQ0,size_16,color_FFFFFF,t_70)
考的是能够保持凸性的操作。
用仿射函数的 pointwise supremum 来表示一个凸函数。这个问题是对书上 83 页结论的扩展,不同的是此处 domf=Rn,令 f:Rn→Rn 是一个凸函数,定义 f~:Rn→R 为所有 f 的全局 unerestimators 的仿射函数的 pointwise supremum:
f~(x)=sup{g(x)∣g affine,g(z)≤f(z) for all z}
证明:
(a)证明对于 x∈int dom f ,有 f(x)=f~(x)
令点 (x,f(x)) 在 epi f 的边界上(epi f 就是该函数上面的点集),(不选择 int epi f 是因为当这个点在 int epi f 上时,对于任意小的 ϵ>0 有 (x,f(x)−ϵ)∈epi f ,这是不可能的,根据 2.5.2 节的结果,可知对于 (x,f(x)) 处的 epi f ,存在一个支持超平面,即 a∈Rn,b∈R ,使得:
aTz+bt≥aTx+bf(x) for all (z,t)∈epi f
如果 (z,t)∈epi f ,则 t 可以任意大,因此我们得出结论 b≥0 。
假设 b=0 ,则:
aTz≥aTx for all z∈dom f
和 x∈int dom f 相矛盾!因此 b>0 。上述不等式同除以 b 得到:
t≥f(x)+(a/b)T(x−z) for all (z,t)∈epi f
因此仿射函数:
g(z)=f(x)+(a/b)T(x−z)
为 f 的 affine global underestimator ,所以根据 f~ 的定义:
f(x)≥f~(x)≥g(x)
但是 g(x)=f(x),因此必须有 f(x)=f~(x)
(b)证明如果 f 是闭,那么 f=f~ (即 epi f 是一个闭集)
- A3.3 :一个函数 f:Rn→R 是闭的,如果对 ∀α∈R ,其 sublevel set
{x∈dom f∣f(x)≤α}
是闭的。这等价于 f 的 epigraph
epi f={(x,t)∈Rn+1∣x∈dom f,f(x)≤t}
是闭的。
一个闭的凸集是所有包含这个集合半平面的交集(见第二章,例 2.20)。对 epi f 使用这个结论,定义:
H={(a,b,c)∈Rn+2∣(a,b)=0,(x,t)∈epi finf(aTx+bt)≥c}
粗略来说,H 是包含 epi f 的所有半平面的集合,根据第二章的结论,
epi f=(a,b,c)∈H⋂{(x,t)∣aT+bt≥c}
显然 H 中所有元素都满足 b≥0 ,实际上 b>0,因此仿射函数:
h(x)=−(a/b)Tx+c/b
是 ≤f 的,因为对于 ∀(x,t)∈epi f,有
t≥f(x)≥−(a/b)Tx+c/t=h(x)
相反地,假如 h(−aTx+c)≤f 则 (a,1,c)∈H ,需要证明:
epi f=(a,b,c)∈H,b>0⋂{(x,t)∣aTx+bt≥c}
也就是说 epi f 是所有包含 epi f 的非垂直的半平面的交集。然后证明:
(a,b,c)∈H,b>0⋂{(x,t)∣aTx+bt≥c}=(a,b,c)∈H⋂{(x,t)∣aTx+bt≥c}(1)
显然左边的包含右边的,现在证假如在左边,那么它一定在右边,用反证法,首先设 (xˉ,tˉ) 在左边的集合中,即:
aTxˉ+btˉ≥c
对于所有的半平面 aTx+bt≥c 并且不是垂直的(即 b>0)并且包含 epi f ,假设 (xˉ,tˉ) 不在右边的集合中,即存在 (a~,b~,c~)∈H (b~=0 也是必要的),使得:
a~Txˉ<c~
H 至少包含一个元素 (a0,b0,c0) 其中 b0>0 (要不然 epi f 将会是垂直半平面们的交集了),考虑一个半平面为 (a~,0,c~)+ϵ(a0,b0,c0) ,其中 ϵ>0 ,这个半平面是非垂直的,并且对于 ∀(x,t)∈epi f ,它是包含 epi f 的:
(a~+ϵa0)Tx+ϵb0t≥a~Tx+ϵ(a0T+b0t)≥c~+ϵc0
原因是 a~Tx≥c~ 和 a0Tx+b0t≥c0 都包含 epi f ,但是对于 ϵ>0 ,有:
(a~+ϵa0)Tx+ϵb0t≥a~Tx+ϵ(a0T+b0t)<c~+ϵc0
因此半平面不包含 (xˉ,tˉ) ,这和假设矛盾,因此 (1) 是成立的。
3.39
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200507124827748.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200507124838920.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200507124847785.png)
共轭函数的性质。
(a)一个凸函数加上一个仿射函数的共轭:定义 g(x)=f(x)+cTx+d ,其中 f 是凸的,用 f∗ 来表示 g∗ :
g∗(y)=sup(yTx−f(x)−cTx−d)=sup((y−c)Tx−f(x))−d=f∗(y−c)−d
(b)透视函数的共轭:用 f∗ 来表示凸函数 f 的透视函数:
g∗(y,s)=x/t∈dom f,t>0sup(yTx+st−t(f(x/t)))=t>0supx/t∈dom fsup(t(yT(x/t)+s−f(x/t)))=t>0supt(s+x/t∈dom fsup(yT(x/t)−f(x/t)))=t>0supt(s+f∗(y))={0∞s+f∗(y)≤0otherwise.
(c)共轭以及最小:令 f(x,z) 为 (x,z) 上的凸函数,定义 g(x)=infzf(x,z) ,用 f∗ 来表示 g∗:
g∗(y)=xsup(xTy−zinff(x,z))=x,zsup(xTy−f(x,z))=f∗(y,0)
作为应用,用 h∗,A,b 来表示函数 g(x)=infz{h(z)∣Az+b=x} 的共轭,其中 h 是凸的:
首先我们要找到 f(x,z):
f(x,z)={h(z)∞Az+b=xotherwise.
则有:
f∗(y,v)=sup(yTx+vTz−f(x,z))=Az+b=xsup(yTx+vTz−h(z))=zsup(yT(Az+b)+vTz−h(z))=bTy+zsup(yTAz+vTz−h(z))=bTy+h∗(ATy+v)
我感觉应该是我上面的这种写法,不知道答案为啥这样写:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200512102237581.png)
但是结果一样:
g∗(y)=f∗(y,0)=bTy+h∗(ATy)
(d)共轭的共轭:证明假如 f 是凸的且闭的,那么 f=f∗∗ (一个函数其 epigraph 是闭的,则其是闭的),提示:证明 f∗∗ 是 f 所有的 affine global underestimators 的点式上确界,然后用练习 3.28 的结论。
根据定义:
f∗(y)=xsup(yTx−f(x))
假如 y∈dom f∗ ,则仿射函数 h(x)=yTx−f∗(y) 小于等于 f ,反之,假如 h(x)=aTx+b 小于等于 f ,则 a∈dom f∗ 并且 f∗(a)≤−b ,那么所有小于等于 f 的仿射函数的集合正好就等于所以函数 h(x)=yTx+c 的集合,其中:
y∈dom f∗,c≤−f∗(y).
因此,根据练习 3.28 ,有:
f(x)=y∈dom f∗sup(yTx−f∗(y))=f∗∗(y)
A2.23
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200507124921958.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzM3Nzk1MjQ0,size_16,color_FFFFFF,t_70)
证明以下函数 f:Rn→R 是凸的:
(a)f(x)=−exp(−g(x)) ,其中 g:Rn→R 定义域是凸的,并且满足:
[∇2g(x)∇g(x)T∇g(x)1]⪰0
其中 x∈dom g 。
求 f 的梯度以及 Hessian:
∇f(x)∇2f(x)=e−g(x)∇g(x)=e−g(x)∇2g(x)−e−g(x)∇g(x)∇g(x)T=e−g(x)(∇2g(x)−∇g(x)∇g(x)T)⪰0
因此 f 凸。
(b)函数:
f(x)=max{∥APx−b∥∣P is a permutation matrix}
其中 A∈Rm×n,b∈Rm 。
因为 f 是带有参数 P 的 ∥APx−b∥ 的最大值,又因为 ∥APx−b∥ 是凸函数,因此 f 凸。