核均值嵌入(KME, kernel mean embeddings)

概念引入

在介绍MMD的时候,MMD被定义为

\[\|\mathbf{E}_{x\sim P(x)}\phi(x) - \mathbf{E}_{y \sim Q(y)}\phi(y)\| \]

我们把\(\mathbf{E}_{x\sim P(x)}\phi(x)\)称作kernel mean embeddings (Hilbert Space Embedding of Marginal Distributions,KME),即mean embeddings被定义为,

\[\mu_P = \mathbf{E}_{x\sim P(x)}\phi(x) \]

这个KME可以看做是分布\(P\)在Hilbert空间中的一个元素。在满足一定的条件下(RKHS是universal时)这个KME和分布是一一对应的!!!(下面会具体的说明)

举一个例子

在有限维特征空间内,即\(\mathcal{H}=\mathbb{R}^2\),定义如下的数学期望,
\(\phi(x) = k(\cdot,x)=(x,x^2)\)\(f(\cdot)=(a,b)\)
\(f(x)=(a,b)(x,x^2)^T=ax + bx^2 = \left<f,\phi(x)\right>_{\mathcal{H}}\)
假设一个随机变量\(x\sim P\),我们有

\[\mathbb{E}_Pf(x)=\mathbb{E}_P \left( (a,b)(x,x^2)^T \right)=(a,b)(\mathbb{E}_P x, \mathbb{E}_Px^2)^T=: (a,b)\mu_P^T \]

其实这个例子反映出核的重构属性,

\[\mathbb{E}_Pf(x)= \mathbf{E}_P \left<f,\phi(x)\right>=\left<f, \mathbf{E}_P\phi(x)\right> = \left<f, \mu_P\right>_\mathcal{H} \]

KME存在性证明

绝大多数情况下,RKHS \(\mathcal{H}\)都是无穷维的。
假设\(\phi(x)=(\phi_1(x),\phi_2(x),\cdots)\in \mathcal{H}\)是无穷维的。给定一个正定核\(k(x,y)\),则有如下等式:

\[\left<\mu_P,\mu_Q\right>_\mathcal{H} = \mathbf{E}_{P,Q}k(x,y) \]

对于\(x\sim P\)\(y \sim Q\)

给定一堆样本\(x_1,x_2,\cdots,x_n \sim P\)\(\mu_P \in \mathcal{H}\)经验评估为,

\[\hat \mu_P = \mathbf{E}_P \phi(x) = \frac{1}{n}\sum_{i=1}^n k(\cdot, x_i) \]

特别注意,因为\(\phi(x)=k(\cdot,x)\)往往是无穷维的,在实际评估的过程中,往往根据实际需求,利用kernel trick。即通过平方展开,凑出\(\left<\phi(x),\phi(y)\right>\)这样的内积,然后替换成\(k(x,y)\),以达到计算的目的。所以,RKHS其实是一个“隐”空间,在绝大部分的算法中都不涉及在RKHS中直接运算。

因为\(\mathcal{H}\)是无穷维的,所以\(\mu_P\)可能并不存在。下面给出Riesz representation theorem:

(Riesz representation theorem) 在Hilbert空间\(\mathcal{F}\)中,对于所有的有界线性算子\(A:\mathcal{H}\mapsto \mathbb{R}\),都存在\(g_A\in \mathcal{F}\)满足,

\[Af = \left<f, g_A\right>,\forall f \in \mathcal{F} \]

有界线性算子( bounded linear operator)的定义是

一个线性算子\(A:\mathcal{F}\mapsto \mathbb{R}\)是有界的,当且仅当存在\(\lambda_A\)使得

\[|Af| \leq \lambda_A\|f\|,\forall f\in \mathcal{F} \]

Riesz呈现定理实际上是指,一个有界线性算子可以和Hilbert空间中的元素相对应。本质上\(\mathcal{F}'=\{A:\mathcal{F}\mapsto \mathbb{R}\}\)和Hilbert空间\(\mathcal{F}\)共轭同构,即可以将这个两个空间视为同一空间。Hilbert空间的一个基本性质是自共轭性。(\(\mathcal{F}'\)被称作\(\mathcal{F}\)的对偶空间)

基于Riesz定理,我们只要能找到在对偶空间\(\mathcal{H}'\)中与\(\mu_P\)相对应的线性算子,然后证明该算子是有界的。下面给出KME存在性的定理。

如果\(\mathbf{E}_P \sqrt{k(x,x)}< \infty\),则\(\mu_P\in \mathcal{H}\)

证明:

构建线性算子\(T_P:\mathcal{H}\mapsto \mathbb{R}\),即\(T_Pf:=\mathbf{E}_P f(x),\forall f \in \mathcal{H}\),则

\[|T_Pf| = |\mathbf{E}_P f(x)| \leq \mathbf{E}_P|f(x)| \]

\[=\mathbf{E}_P|\left<f,\phi(x)\right>| \]

\[\leq\mathbf{E}_P \left(\|\phi(x)\|\|f\|\right) = \mathbf{E}_P \left(\sqrt{k(x,x)}\|f\|\right) \]

第一行用到的是 Jensen 不等式。
因为由Riesz定理,当\(\mathbf{E}_P \sqrt{k(x,x)}< \infty\)时,\(T_P\)是有界线性算子。而\(T_Pf = \left<f, \mathbf{E}_P\phi(x)\right>=\left<f, \mu_P\right>\),故\(\mu_P\)存在。

这个是非常重要的一个定理,保证了KME的存在性。

KME的理解

  1. KME \(\mu_P\)是一种“隐式表达”,在实际的应用中,我们并不知道\(\mu_P\)的具体形式,我们只知道核函数\(k(x,y)\)的形式。因此,在实际应用的过程中,“寻找”内积,然后凑出核函数。如在MMD计算中,通过平方展开,消除所有的\(\phi\)

  2. RKHS \(\mathcal{H}\)是一个函数空间,所以\(\mu_P \in \mathcal{H}\)是一个“函数”,利用核的重构性质

\[\mu_P(t) = \left<\mu_P,\phi(t)\right>= \mathbf{E}_P k(x,t) \]

KME本质上是核函数的数学期望。

  1. 回想一下MMD,在上节当中,我们定义MMD为

\[\text{MMD}(P,Q)=\|\mathbf{E}_P \phi(x) - \mathbf{E}_Q \phi(x)\|=\|\mu_P - \mu_Q\| \]

分布\(P\)\(Q\)之间的相似性由两个KME之间的“距离”来测量。假设\(\mu_P = (x_1,x_2,\cdots)\)\(\mu_Q=(y_1,y_2,\cdots)\),则

\[\text{MMD}(P,Q)^2 = (x_1-y_1)^2+(x_2-y_2)^2+\cdots \]

显然可知,当KME的每一位都相等时(\(x_i=y_i\)),MMD等于0。如果\(\mu_P\)与分布\(P\)是一一对应的,我们就可以由MMD是否为0推断出两个分布是否相同!!!
我们由这样一个重要的定理,

定理: 如果\(k\)是一致逼近核(universal kernel),则\(\text{MMD}(P,Q)\)\(0\)当且仅当\(\mu_P = \mu_Q\)

常见的一致逼近核包括:
高斯核:

\[k(x,y)=\exp \left(-\frac{\|x-y\|^2}{\delta} \right) \]

拉普拉斯核:

\[k(x,y)=\exp \left(-\frac{\|x-y\|}{\delta} \right) \]

posted @ 2020-10-07 19:25  望天下  阅读(4458)  评论(0编辑  收藏  举报