【笔记】机器学习基础 - Ch3. Rademacher Complexity & VC-Dimension

🥰 | 😱

3.1 Rademacher Complexity

现在考虑无限集合 $\cal H$，并给出几个 guarantee
损失函数为映射 $L:\cal Y\times Y\to \mathbb{R}$；样本 $(x,y)$ 通过某个假设 $h\in \cal H$ 再通过某个损失函数，可以视作一个从 $\cal Z=X\times Y$ 到 $\mathbb{R}$ 的映射 $g$，其集合 $\cal G$ 用以表示上述 “基于 $\cal H$ 的损失函数集合”：${\cal G}=\{g:(x,y)\mapsto L(h(x),y):h\in\cal H\}=\{g:\cal Z\to \mathbb{R}\}$
Rademacher Complexity 通过刻画函数集合 “拟合噪声的能力”，进而刻画其丰富程度（captures the richness of a family of functions by measuring the degree to which a hypothesis set can fit random noise）

定义 Empirical Rademacher complexity
函数集合 $\cal G=\{g: Z\to [a,b]\}$；样本 $S=(z _1,\dotsb, z _m)\in \cal Z ^m$，定义 $\cal G$ 就关于 $S$ 的 “经验 Rademacher 复杂度” 为：

\[\widehat{\frak{R}} _S({\cal G}) = \mathbb{E} _{\boldsymbol \sigma}\left[\sup _{g \in \cal G} \frac{1}{m}\sum _{i=1}^m \sigma _i g(z _i) \right]= \mathbb{E} _{\boldsymbol\sigma}\left[\sup _{g \in \cal G} \frac{{\boldsymbol \sigma}\cdot {\bf g} _S}{m} \right] \]

其中 “噪声” $\boldsymbol{\sigma}=(\sigma _1,\dotsb,\sigma _m)'$，为 $m$ 个独立服从 $\{-1,+1\}$ 平均分布的变量，也称为 Rademacher 变量（后面证明里会提到这个谜之变量怎么出现的）；我们用 $g$ 对样本 $S$ 的映射结果 ${\bf g} _S$ 作为拟合噪声，并用点积刻画拟合程度（既然映射结果是有界的，那么这么理解还是有道理的）。
可见 $\widehat{\frak{R}} _S({\cal G})$ 表示 $\cal G$ 中以采样 $S$ “尽可能拟合”（通过 $g$ 映射并取上界）各个噪声的平均能力（取期望值），从而反映 $\cal G$ 的丰富程度。
进一步地，定义 $\cal G$ 的 “Rademacher 复杂度” 为：

定义 Rademacher complexity
$S\sim\cal D ^m$，对于任意正整数 $m$，$\cal G$ 的 Rademacher complexity 为其抽取 $m$ 个样本得到经验 Rademacher 复杂度的期望值，也就是 “期望以随机采样” 拟合各个噪声的平均能力：

\[{\frak{R}} _m({\cal G})=\mathbb{E} _{S\sim \cal D ^m}[\widehat{\frak{R}} _S({\cal G})] \]

接下来就损失函数的期望，给出 generalization bound：

定理
函数集合 ${\cal G}=\{g: Z\to [0,1]\}$；以 i.i.d. 抽取 $S=(z _1,\dotsb, z _m)$，对于任意 $\delta>0$，以至少 $1-\delta$ 的概率，对任意 $g\in \cal G$ 都有其期望值 $\mathbb{E}[g]$：

\[\mathbb{E} _{z\sim \cal D}[g(z)]\le \frac{1}{m}\sum _{i=1} ^{m}g(z _i) + 2{\color{deeppink}{{\frak{R}} _{m}}}({\cal G})+\sqrt{\frac{\log \frac{1}{\delta}}{2m}} \tag{1} \]

\[\mathbb{E} _{z\sim \cal D}[g(z)]\le \frac{1}{m}\sum _{i=1} ^{m}g(z _i) + 2{\color{deeppink}{\widehat{\frak{R}} _{S}}}({\cal G})+3\sqrt{\frac{\log \frac{2}{\delta}}{2m}} \tag{2} \]

也就是说，以很大的概率，$\cal G$ 里任意一个损失函数 $g$ 的期望值 $\mathbb{E}[g]$，通过采样，都被采样试探出的平均值 + 一个刻画 $\cal G$ 多样性的值（或者 $\cal G$ 单就在样本 $S$ 上体现的多样性）+ 一个负相关于采样数量的值给上限住了。单个函数为什么会和总体多样性有关？感性理解这是 “任意” 带来的代价。
证明：
对于 $(1)$ 式，将 $g$ 关于 $S$ 的经验平均值记为 $\widehat{\mathbb{E}} _S[g]=\frac{1}{m}\sum _{i=1}^m g(z _i)$，并移到左边：$\mathbb{E}[g]-\widehat{\mathbb{E}} _S[g]$；定理对任意 $g$ 的表述，等价刻画成左式看作关于 $S$ 的函数并在 $\cal G$ 取上界 $\Phi(S)=\sup _{g\in \cal G}(\mathbb{E}[g]-\widehat{\mathbb{E}} _S[g])$，然后考虑对其放缩
考虑 McDiarmid 不等式（见补充）用在 $\Phi(S)$ 上：对于仅有一个点改变的 $S, S'$，由于上界的差不超过差的上界，有 $\Phi(S')-\Phi(S)\le \sup _{g\in \cal G}(\widehat{\mathbb{E}} _S[g]-\widehat{\mathbb{E}} _{S'}[g])\le 1/m$，于是应用不等式，以至少 $1-\delta/2$ 的概率，有 $\Phi(S)\le \mathbb{E} _S[\Phi(S)]+\sqrt{\frac{\log(2/\delta)}{2m}}$，接下来考虑这个期望值：

\[\begin{aligned} \mathbb{E} _S[\Phi(S)] &= \mathbb{E} _S\left[ \sup _{g\in \cal G}\left(\mathbb{E}[g] - \widehat{\mathbb{E}} _S(g) \right) \right] \\ &= \mathbb{E} _S\left[ \sup _{g\in \cal G}\mathbb{E} _{S'}\left[\widehat{\mathbb{E}} _{S'}(g) - \widehat{\mathbb{E}} _S(g) \right] \right] &; \text{double sample trick 从而统一形式}\\ &\le \mathbb{E} _{S, S'}\left[ \sup _{g\in \cal G}\left(\widehat{\mathbb{E}} _{S'}(g) - \widehat{\mathbb{E}} _S(g) \right) \right] &; \sup\mathbb{E}[X]\le\mathbb{E}[\sup X] \\ &= \mathbb{E} _{S, S'}\left[ \sup _{g\in \cal G}\left(\frac{1}{m}\sum _{i=1}^m (g(z' _i)-g(z _i)) \right) \right] &;\text{接下来引入 Rademacher 变量！} \\ &= \mathbb{E} _{\boldsymbol{\sigma},S, S'}\left[ \sup _{g\in \cal G}\left(\frac{1}{m}\sum _{i=1}^m\sigma _i (g(z' _i)-g(z _i)) \right) \right] &; \text{$S,S'$ 对称，任意交换 $z, z'$} \\ &\le 2\cdot \mathbb{E} _{\boldsymbol{\sigma},S}\left[ \sup _{g\in \cal G}\left(\frac{1}{m}\sum _{i=1}^m\sigma _i g(z' _i) \right) \right]=2{\frak{R}} _m({\cal G}) &;\sup(A+B)\le \sup A + \sup B \end{aligned} \]

注意证明里自从引入了谜之 Rademacher 变量，我们将对称的 $S,S'$ 分开后可以摆脱正负号限制（随意变号），真是神奇的设计
从而 $(1)$ 式以至少 $1-\delta$ 概率成立；对于 $(2)$ 式，只需要在 $(1)$ 式的基础上，注意到 $\widehat{\frak{R}} _{S}(\cal G)$ 在改变一个样本点时最多改变 $1/m$（注意 $g$ 只映射到 $[0,1]$）且 $\mathbb{E} _S(\widehat{\frak{R}} _{S}(\cal G))={\frak{R}} _{m}(\cal G)$，故再次使用 McDiarmid 不等式，以至少 $1-\delta/2$ 概率有 ${\frak{R}} _{m}(\cal G)\le \widehat{\frak{R}} _{S}(\cal G)+\sqrt{\frac{\log(2/\delta)}{2m}}$ 然后用 union bound 简单相加概率，即可证得 $(2)$ 式。

二分类：泛化误差的界
本文后面的内容中，我们基本都对二分类进行讨论
${\cal H}=\{h:{\cal X\to Y}=\{-1,+1\}\}$，$\cal G=\{(x,y)\mapsto 1 _{h(x)\ne y}:h\in \cal H \}$，记 $S=(x _1,\dotsb, x _m), S'=((x _1, y _1),\dotsb,(x _m, y _m))$
我们以 zero-one loss $1 _{h(x)\ne y}$ 固定住 $g$，从而使得基于 $\cal H$ 的 $\cal G$ 变成只是 $\cal H$ 和固定映射的复合，然后回顾一下之前提到的概念：
$\mathbb{E}[g]={\mathbb E} _{(x,y)}[1 _{h(x)\ne y}]=R(h)$ 即泛化误差；$\widehat{\mathbb{E}} _S[g]=\frac{1}{m}\sum _{i=1}^{m} 1 _{h (x _i)\ne y_i}=\widehat{R} _S(h)$ 即经验误差；那么 $\widehat{\frak{R}} _{S'}({\cal G})$ 又变成什么了呢？

\[\begin{aligned} 2\widehat{\frak{R}} _{S'}({\cal G}) &= 2 \mathbb{E} _{\boldsymbol \sigma}\left[\sup _{h \in \cal H} \frac{1}{m}\sum _{i=1}^m \sigma _i 1 _{h(x _i)\ne y _i} \right]&; 1 _{h(x)\ne y}=\frac{1-h(x)y}{2} \\ &= \mathbb{E} _{\boldsymbol \sigma}\left[\sup _{h \in \cal H} \frac{1}{m}\sum _{i=1}^m -\sigma _i h(x _i) y _i \right]&; \text{$\sigma$ 随意变号} \\ &= \mathbb{E} _{\boldsymbol \sigma}\left[\sup _{h \in \cal H} \frac{1}{m}\sum _{i=1}^m \sigma _i h(x _i) \right] = \widehat{\frak{R}} _{S}({\cal H}) \end{aligned} \]

同取期望有 $2{\frak{R}} _m({\cal G})={\frak{R}} _m({\cal H})$，于是原定理变为对于任意 $h\in \cal H$，以至少 $1-\delta$ 概率有

\[R(h)\le \widehat{R} _S(h) + {\frak{R}} _m({\cal H})+\sqrt{\frac{\log \frac{1}{\delta}}{2m}} \\ R(h)\le \widehat{R} _S(h) + \widehat{\frak{R}} _{S}({\cal H}) +3\sqrt{\frac{\log \frac{2}{\delta}}{2m}} \]

且不论 ${\frak{R}} _m({\cal H})$，$\widehat{\frak{R}} _{S}({\cal H})=\mathbb{E} _{\boldsymbol \sigma}[\sup _{h \in \cal H} \frac{1}{m}\sum _{i=1}^m \sigma _i h(x _i) ]$ 又怎么计算呢？固定 $\boldsymbol \sigma$ 后等价于一个最小化经验风险的问题，往往是 computationally hard 的。接下来要做的是为它给出一个界。

3.2 Growth function

增长函数做出的进步是其不再依赖于数据分布，而是变为单纯组合的 combinatorial 形式

定义 Growth function
假设集合 $\cal H$ 关于样本容量 $m$ 的函数：增长函数 growth function $\Pi _{\cal H}:\mathbb{N\to N}$，定义为输入空间 $\cal X ^m$ 的任意一点被 $\cal H$ 的所有元素映射出的象的最大个数：

\[\forall m\in \mathbb{N},\quad\Pi _{\cal H}(m)=\max _{(x _1,\dotsb, x _m)\in \cal X ^m} \left|\Big\{(h(x _1), \dotsb, h(x _m)):h\in \cal H\Big\} \right| \]

称 $(h(x _1), \dotsb, h(x _m))$ 为 dichotomy，也就是假设能最多划分出的 dichotomy 的个数。显然对于二分类问题，$\Pi _{\cal H}(m)\le 2 ^m$

定理 Growth function generalization bound
对于映射到 $\{-1,+1\}$ 的函数集合 $\cal G$，记 ${\cal G} _{|S}=\{ g(S):g\in\cal G\}$，其元素的 2-范数上界为 $\sqrt{m}$，应用 Massart's lemma 放缩（见补充）对集合求大小从而引入了 growth function：

\[{\frak{R}} _m({\cal G})=\mathbb{E} _S\left[\mathbb{E} _{\boldsymbol \sigma}\left[\sup _{{\bf u} \in{\cal G} _{|S}} \frac{{\boldsymbol{\sigma}\cdot{\bf u}}}{m} \right]\right]\le \mathbb{E} _S\left[\frac{\sqrt{m}\sqrt{2\log |{\cal G} _{|S}|}}{m} \right]=\sqrt{\frac{2\log \Pi _{\cal G}(m)}{m}} \]

从而以至少 $1-\delta$ 的概率，对任意 $h:{\cal X}\to \{-1,+1\}\in \cal H$，有

\[R(h)\le \widehat{R} _S(h) + \sqrt{\frac{2\log \Pi _{\cal H}(m)}{m}}+\sqrt{\frac{\log \frac{1}{\delta}}{2m}} \]

或者写成 $\Pr[|R(h)-\widehat{R} _S(h)|>\epsilon]\le \Pi _{\cal H}(2m)\exp(-m\epsilon ^2/8)$
求 $\Pi _{\cal H}$ 也不容易，接下来进一步放宽上界以求得更简单的边界

3.3 VC-dimension

依然考虑二分类。当 $\cal H$ 的元素能将 $S$ 映射到所有可能的 dichotomies 时，称 $S$ 被 $\cal H$ 打散 shattered，此时 $\Pi _{\cal H}(m)=2 ^m$。据此定义 VC 维：

定义 VC-dimension
二分类。假设集合 $\cal H$ 的 VC 维，定义为最大地能被 $\cal H$ 打散的样本的容量：

\[\text{VCdim}({\cal H})=\max \{m:\Pi _{\cal H}(m)=2 ^m\} \]

当然，只要存在那么一个容量 $m$ 的样本就行了。例如对于平面上的点，使用所有直线为假设集合时，VC 维为 3，因为只要 3 个点不共线就可以，而 4 个点形成矩形且相邻点不同的情况就是反例。证明 VC 维往往需要我们为其构造一个解，同时证明大于的情况都是不可行的。
记 $\text{VCdim}({\cal H})=d$，现在我们可以用 Sauer's lemma 为 Growth function 给出组合形式的上界：$\Pi _{\cal H}(m)\le\sum _{i=0}^{d} C _m^i$
证明略。其实只要自己尝试构造一下就会发现这个上界是最紧的。我们不妨将其理解为 “$m$ 个元素至多 $d$ 个 $1$ 的方案数”，由此它也暗示了一种构造方法：对于 $(x _1,\dotsb, x _m),m> d$，映射结果 $\{(h(x _1,\dotsb, h(x _m)):h\in{\cal H})\}$ 满足对于任意 $(x _{k _1},\dotsb, x _{k _{d+1}})$，映射结果不能全部为 $1$；如此自然 VC 维就不可能大于 $d$，而这样的方案数恰好就是上面的式子。
用这个式子，当 $m\ge d$ 时，我们继续放缩（还放啊）：

\[\begin{aligned} \Pi _{\cal H}(m)&\le\sum _{i=1} ^d C _m ^i \le \sum _{i=1} ^m C _m ^i (\frac{m}{d}) ^{d-i}=(\frac{m}{d}) ^d (1+\frac{d}{m}) ^m \\ &\le (\frac{m}{d}e) ^d \end{aligned} \]

可见对于 Growth function generalization bound，当 $\cal H$ 没那么“万能”—— $\text{VCdim}(\cal H)<+\infty$ 时，$\Pi _{\cal H}(m)$ 会限制在多项式级别；但是 $\text{VCdim}(\cal H)=+\infty$ 时就只剩指数级上界 $2 ^m$ 了——大概过拟合就是过于万能的假设集合缺少上界造成的。总之，我们对于有限 VC 维，给出它的上界：

定理 VC-dimension generalization bound
假设集合 $\cal H$ 映射到 $\{-1, +1\}$，VC 维为 $d$。对任意 $\delta> 0$，以至少 $1-\delta$ 的概率，对任意 $h\in \cal H$ 有：

\[R(h)\le \widehat{R} _S(h) + \sqrt{\frac{2d\log\frac{em}{d}}{m}} + \sqrt{\frac{\log\frac{1}{\delta}}{2m}} \]

也就是泛化界是 $O(\sqrt{\frac{\log(m/d)}{m/d}})$，可见 $m/d$ 越大越好，从而又一次验证了在经验误差基本一个水平的情况下，VC 维越小越好——假设越简单越好（Occam's razor）
另外不通过 Rademacher 复杂度也可以导出相同复杂度的上界 $R(h)\le \widehat{R} _S(h)+\sqrt{(8d\log \frac{2em}{d}+8\log \frac{4}{\delta})/m}$

3.4 Lower bounds

我们现在为泛化误差找下界，下界是因为总存在不好的分布和目标假设。分为两种情况：realizable setting 假设集合里存在期望误差为零的假设，而 non-realizable setting 不存在这种假设（比如 Ch2 提到的随机情景 stochastic scenario）。

定理 Lower bound, realizable case
假设集合 $\cal H$，其 VC 维 $d>1$。于是，对于任意 $m\ge 1$ 和任意算法 $\cal A$，总存在分布 $\cal D$ 和目标假设 $f\in\cal H$ 使得：

\[\mathbb{P} _{S\sim\cal D ^m}\left[R _{\cal D}(h _S, f)>\frac{d-1}{32m} \right]\ge 0.01 \]

观察式子，又是 $d/m$，可见 VC 维确实好用。至于 VC 维无穷大的 realizable 情况，则 PAC 学习是不可行的。
证明：
我也不知道重不重要，先抄着吧。记被 $\cal H$ shattered 的点为 $\bar{\cal X}=\{x _0,x _1,\dotsb, x _{d-1}\}$，并取分布 $\cal D$ 只落在这 $d$ 个点上，满足 $\Pr _{\cal D}[x _0]=1-8\epsilon, \Pr _{\cal D}[x _i]=8\epsilon/(d-1)$
如此设计使得大部分样本点都落在 $x _0$，算法对 $x _0$ 肯定不会有误差了；对于训练集里没出现过的点，由于 $\bar{\cal X}$ 被 shattered 也就是 $\cal H$ 里啥都有，因此对 $f\in H$ 在此处的假设不如直接让算法丢硬币；剩下的不是 $x _0$ 的那些样本，我们记其集合为 $\bar{S}\sube S$，可以认为它们的标签多少被算法记一些
定义 ${\cal S}=\{S:|S|=m,|\bar{S}|\le (d-1)/2\}$，从里头采样 $S$，并且认为损失函数 $f:\bar{X}\to\{0,1\}$ 等概率出现，于是计算期望误差：

\[\begin{aligned} \mathbb{E} _{f}[R _{\cal D}(h _S, f)]&=\sum _f\sum _{x\in \bar{X}} 1 _{h _S(x)\ne f(x)} \Pr[x]\Pr[f] \\ &\ge \sum _f\sum _{x\notin \bar{S}} 1 _{h _S(x)\ne f(x)} \Pr[x]\Pr[f] &;\text{算法顶多把 $\bar{S}$ 的全记下来了} \\ &=\sum _{x\notin \bar{S}}\left( \sum _f 1 _{h _S(x)\ne f(x)} \Pr[f] \right)\Pr[x]=\frac{1}{2} \sum _{x\notin \bar{S}}\Pr[x] &;\text{没见过的点就抛硬币} \\ &\ge \frac{1}{2}\frac{d-1}{2}\frac{8\epsilon}{d-1}=2\epsilon \end{aligned} \]

对每个 $S$ 均成立，在 $\cal S$ 上取期望也成立，然后把交换期望顺序（Fubini's theorem），得到 $\mathbb{E} _{f}[\mathbb{E} _{S\in {\cal S}}[R _{\cal D}(h _S, f)]]\ge 2\epsilon$，也就是存在一个 $f _0$ 使得 $\mathbb{E} _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)]\ge 2\epsilon$；同时注意一个显然的事实：$R _{\cal D}(h _S, f _0)\le \Pr _{\cal D}[\bar{X}/\{x _0\}]$，因为后者是除了 $x _0$ 全部猜错的损失。放缩：

\[\begin{aligned} 2\epsilon\le\mathbb{E} _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)]&=\sum _{S:R _{\cal D}(h _S, f _0)\ge \epsilon}R _{\cal D}(h _S, f _0)\Pr[R _{\cal D}(h _S, f _0)] \\ &\quad +\sum _{S:R _{\cal D}(h _S, f _0)< \epsilon}R _{\cal D}(h _S, f _0)\Pr[R _{\cal D}(h _S, f _0)] \\ &\le \Pr _{\cal D}[\bar{X}/\{x _0\}] \Pr _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)\ge \epsilon]&;\text{求和号内放缩，提出去} \\ &\quad + \epsilon\Pr _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)< \epsilon]&;\text{使用条件放缩} \\ &\le 8\epsilon \Pr _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)\ge \epsilon]\\ &\quad +\epsilon(1-\Pr _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)\ge \epsilon]) \end{aligned} \]

解方程，得到 $\Pr _{S\in {\cal S}}[R _{\cal D}(h _S, f _0)\ge \epsilon]\ge 1/7$，然后对原式 $\Pr _{S}[\cdot]\ge\Pr _{S\in {\cal S}}[\cdot]\Pr[{\cal S}]\ge \Pr[{\cal S}]/7$，再对 $\Pr[{\cal S}]$ 用个什么 multiplicative Chernoff bound 放缩一下，最后得证。
总之这个证明还是一如既往地信息量很大，有些像是技巧又像是暴力的东西，很是跳跃

对于 non-realizable 情况，也给出下界：

定理 Lower bound, non-realizable case
假设集合 $\cal H$，其 VC 维 $d>1$。于是，对于任意 $m\ge 1$ 和任意算法 $\cal A$，总存在 $\cal X\times\{0,1\}$ 上的分布 $\cal D$ 使得：

\[\mathbb{P} _{S\sim\cal D ^m}\left[R _{\cal D}(h _S)-\inf _{h\in \cal H}R _{\cal D}(h)>\sqrt{\frac{d}{320m}} \right]\ge 1/64 \]

该式即之前提到的 agnostic PAC-learning，只不过给出的是误差下界；等价于 $m\ge \frac{d}{320\epsilon ^2}$ 时很大概率误差会超过 $\epsilon$；同时可知，当 VC 维无穷大时 agnostic PAC-learning 是不可行的。

Exercises

VC dimension of a vector space of real function
有限维向量空间（vector space，线性空间）$F$ 的元素为映射 $f:{\cal X}\to \mathbb{R}$，且 $\dim(F)=r<\infty$。取假设集合 $H=\{\{x:f(x)\ge 0\}:f\in F\}$，证明 $\text{VCdim}(H)$ 有限且小等于 $r$

思路：取 $S=(x _1,\dotsb, x _{r+1})$，即证对任意 $S$，$H$ 都无法将其打散，可以试着证明所有 $h\in H$ 都无法映射到某一个特定的象上

证明：对任意 $S=(x _1,\dotsb, x _{r+1})$，取 $l:F\to \mathbb{R} ^{r+1}$，为 $l(f)=(f(x _1),\dotsb, f(x _{r+1}))$，显然 $\mathbb{R} ^{r+1}$ 上的集合 $L=\{l(f):f\in F\}$ 也构成一个向量空间且 $\dim(L)\le r$，故存在非零 $\boldsymbol{\alpha}\in \mathbb{R} ^{r+1}$ 与 $L$ 正交：

\[\forall f\in F,\quad \sum _{i=1}^m \alpha _i f(x _i)=0\implies \sum _{i:\alpha _i\ge 0}\alpha _i f(x _i)=-\sum _{i:\alpha _i< 0}\alpha _i f(x _i) \]

令 $\alpha _i$ 至少有一个小于零。接下来对于 $S$，令 $h(S)=\{x:f(x)\ge 0\}=\{x _i:x _i \text{ in LHS}\}$，那么上面等式里左式大等于零，右式小于零，矛盾，故无法取到这个映射结果。故得证。

补充

McDiarmid 不等式
$m$ 维独立随机变量 $S=(X _1,\dotsb, X _m)\in \cal X ^m$；若对于每个 $i\in [m]$ 都存在一个 $c _i>0$，使得多元函数 $f:\cal X ^m\to\mathbb{R}$ 在任何时候单独以每一维取值变化时的函数值变化量不超过 $c _i$（于是若干维变化带来的函数值变化上界等于对应维度的上界和）：

\[\left|f(x _1,\dotsb, x _i, \dotsb, x _m)-f(x _1,\dotsb, x' _i, \dotsb, x _m)\right|\le c _i \]

则 $f(S)$ 的值以很大概率满足其与期望值足够接近：

\[\begin{aligned} \Pr[f(S)-\mathbb{E}[f(S)]\ge\epsilon]\le \exp\left(\frac{-2 \epsilon ^2}{\sum _{i=1} ^m c _i ^2}\right) \\ \Pr[f(S)-\mathbb{E}[f(S)]\le-\epsilon]\le \exp\left(\frac{-2 \epsilon ^2}{\sum _{i=1} ^m c _i ^2}\right) \end{aligned} \]

引理 Massart's lemma
有限集合 $\cal A\sube \mathbb{R} ^m$，其元素的 2-范数上界为 $r=\max _{\bf x\in \cal A}\Vert\bf x\Vert _2$，那么有定理

\[\mathbb{E} _{\boldsymbol{\sigma}}\left[\frac{1}{m}\sup _{\bf x\in \cal A}\sum _{i=1} ^m\sigma _i x _i \right]\le\frac{r\sqrt{2\log |{\cal A}|}}{m} \]

posted @ 2023-08-11 00:17 zrkc 阅读(864) 评论(1) 收藏举报

刷新页面返回顶部

zhyh's blog