贝叶斯分类器
\[\begin{align*}
y&=\underset{c_i}{\arg\max}\left\lbrace{P[\pmb X=\pmb x\mid Y=c_i]P[Y=c_i]\over\sum_kP[\pmb X=\pmb x\mid Y=c_k]P[Y=c_k]}\right\rbrace\\
&=\underset{c_i}{\arg\max}\left\lbrace P[\pmb X=\pmb x\mid Y=c_i]P[Y=c_i]\right\rbrace\\
&=\underset{c_i}{\arg\max}\ln\left\lbrace P[\pmb X=\pmb x\mid Y=c_i]P[Y=c_i]\right\rbrace
\end{align*}
\]
多元高斯分布
如果数据服从多元高斯分布
\[\begin{align*}
\pmb x&=\left[x^{(1)},x^{(2)},\dots,x^{(n)}\right]^T\\
\pmb\mu&=E[\pmb x]=\left[\mu^{(1)},\mu^{(2)},\dots,\mu^{(n)}\right]^T\\
\pmb\Sigma&=E\left[(\pmb x-\pmb\mu)(\pmb x-\pmb\mu)^T\right]\\
&=\begin{bmatrix}
\sigma(x^{(1)},x^{(1)})&\sigma(x^{(1)},x^{(2)})&\cdots&\sigma(x^{(1)},x^{(n)})\\
\sigma(x^{(2)},x^{(1)})&\sigma(x^{(2)},x^{(2)})&\cdots&\sigma(x^{(2)},x^{(n)})\\
\vdots&\vdots&\ddots&\vdots\\
\sigma(x^{(n)},x^{(1)})&\sigma(x^{(n)},x^{(2)})&\cdots&\sigma(x^{(n)},x^{(n)})\\
\end{bmatrix}\\
P(\pmb x;\pmb\mu,\pmb\Sigma)&=\frac1{(2\pi)^{n/2}\cdot\vert\pmb\Sigma\vert^{1/2}}\exp\left[-\frac12(\pmb x-\pmb\mu)^T\pmb\Sigma^{-1}(\pmb x-\pmb\mu)\right]
\end{align*}
\]
\(\pmb\mu,\sigma,\pmb\Sigma,\vert\pmb\Sigma\vert\) 分别为平均值、协方差、协方差矩阵和协方差矩阵的行列式。
判别式
那么判别式 \(g(i)=\ln\left\lbrace P[\pmb X=\pmb x\mid Y=c_i]P[Y=c_i]\right\rbrace\) 变为
\[\begin{align*}
g(i)&=-\frac12(\pmb x-\pmb\mu_i)^T\pmb\Sigma^{-1}_i(\pmb x-\pmb\mu_i)-\frac n2\ln2\pi-\frac12\ln\vert\pmb\Sigma_i\vert+\ln P[Y=c_i]\\
\end{align*}
\]
考虑 \(\Sigma\) 的几种不同情况,舍弃对结果没有影响的项来简化判别式
-
\(\pmb\Sigma_i=\sigma^2\pmb I\)
意味着所有类的平均数 \(\mu_i\) 不同,但所有特征两两独立且具有相同的方差 \(\sigma\)。
反映在图形上就是此多元高斯分布只是在各个维度上进行了相同的尺度缩放,没有进行旋转等操作,因此所有维度都是独立的。
简化后 \(g(i)=\frac1{2\sigma^2}\left(2\pmb\mu_i^T\pmb x-\pmb\mu_i^T\pmb\mu_i\right)+\ln P[Y=c_i]\)。
考虑两个类的判别式相同的情况 \(g(i)=g(j),i\ne j\)
\[\begin{align*}
\left(\pmb\mu_i^T-\pmb\mu_j^T\right)\pmb x&=\frac12\left(\pmb\mu_i^T\pmb\mu_i-\pmb\mu_j^T\pmb\mu_j\right)-\sigma^2\ln{P[Y=c_i]\over P[Y=c_j]}\\
\left(\pmb\mu_i^T-\pmb\mu_j^T\right)\pmb x&=\frac12\left(\pmb\mu_i^T-\pmb\mu_j^T\right)\left(\pmb\mu_i+\pmb\mu_j\right)\\&\quad-\sigma^2{\left(\pmb\mu_i^T-\pmb\mu_j^T\right)\left(\pmb\mu_i-\pmb\mu_j\right)\over\left\vert\left\vert\pmb\mu_i-\pmb\mu_j\right\vert\right\vert^2}\ln{P[Y=c_i]\over P[Y=c_j]}\\
\end{align*}
\]
\[\begin{align*}
\text{let }\pmb w&=\pmb\mu_i-\pmb\mu_j,\\
\pmb x_0&=\frac12\left(\pmb\mu_i+\pmb\mu_j\right)-{\ln{P[Y=c_i]\over P[Y=c_j]}\over\left\vert\left\vert\pmb\mu_i-\pmb\mu_j\right\vert\right\vert^2}\sigma^2\left(\pmb\mu_i-\pmb\mu_j\right),\\
&\!\!\!\!\!\!\!\!\!\!\!\!\text{then }\pmb w^T(\pmb x-\pmb x_0)=0,\text{ namely }\pmb w\bot(\pmb x-\pmb x_0)
\end{align*}
\]
\(\pmb w\) 相当于划分两个类的超平面,通过正负判断向量在超平面的两侧;\(\pmb x_0\) 为偏置,相当于将两个类的移动到原点周围,并用两个类出现的概率 \(P[Y=c_k]\) 给予数量较多的类更多的可能性。
-
\(\pmb\Sigma_i=\pmb\Sigma\)
所有类具有同样的协方差矩阵。
现在所有类都经过某些相同的旋转缩放操作,因此它们的分布函数形状是相同的。
简化后 \(g(i)=\pmb\mu^T_i\pmb\Sigma^{-1}\pmb x-\frac12\pmb\mu_i^T\pmb\Sigma^{-1}\pmb\mu_i+\ln P[Y=c_i]\)
用以上同样的方法求出 \(\pmb w,\pmb x_0\)
\[\begin{align*}
\pmb w&=\pmb\Sigma^{-1}(\pmb\mu_i-\pmb\mu_j),\\
\pmb x_0&=\frac12\left(\pmb\mu_i+\pmb\mu_j\right)-{\ln{P[Y=c_i]\over P[Y=c_j]}\over\left\vert\left\vert\pmb\mu_i-\pmb\mu_j\right\vert\right\vert^2}\pmb\Sigma\left(\pmb\mu_i-\pmb\mu_j\right)
\end{align*}
\]
超平面经过 \(\pmb\Sigma^{-1}\) 变换。
-
\(\pmb\Sigma_i\ne\pmb\Sigma_j\)
所有类的位置不同,形状也不同。
前面两种情况所得到的 \(\pmb w\) 都是向量,因此是超平面 ;但这第三种情况不一定有超平面,而会是超球体、超椭圆、超双曲线等超二次曲线,之所以是二次曲线是因为多元高斯分布是二次的。
\(g(i)=-\frac12(\pmb x-\pmb\mu_i)^T\pmb\Sigma^{-1}_i(\pmb x-\pmb\mu_i)-\frac12\ln\vert\pmb\Sigma_i\vert+\ln P[Y=c_i]\)
最大似然估计
\[\begin{align*}
\mathcal L(\pmb\mu,\pmb\Sigma)&=\ln\prod_iP(\pmb x_i;\pmb\mu,\pmb\Sigma)\\
&=\sum_{i=1}^N\ln P(\pmb x_i;\pmb\mu,\pmb\Sigma)\\
&=\sum_{i=1}^N\ln\frac1{(2\pi)^{n/2}\cdot\vert\pmb\Sigma\vert^{1/2}}\exp\left[-\frac12(\pmb x_i-\pmb\mu)^T\pmb\Sigma^{-1}(\pmb x_i-\pmb\mu)\right]\\
&=-\sum_{i=1}^N\frac n2\ln(2\pi)-\frac12\ln\vert\pmb\Sigma\vert-\frac12(\pmb x_i-\pmb\mu)^T\pmb\Sigma^{-1}(\pmb x_i-\pmb\mu)\\
&\overset{\cancel{\ln(2\pi)}}{\longrightarrow}\sum_{i=1}^N-\frac12\ln\vert\pmb\Sigma\vert-\frac12(\pmb x_i-\pmb\mu)^T\pmb\Sigma^{-1}(\pmb x_i-\pmb\mu)\\
\hat{\pmb\mu},\hat{\pmb\Sigma}&=\underset{\pmb\mu,\pmb\Sigma}{\arg\max}\mathcal L(\pmb\mu,\pmb\Sigma)\\
&=\underset{\pmb\mu,\pmb\Sigma}{\arg\min}\sum_{i=1}^N\frac12\ln\vert\pmb\Sigma\vert+\frac12(\pmb x_i-\pmb\mu)^T\pmb\Sigma^{-1}(\pmb x_i-\pmb\mu)\\
\nabla_{\pmb\mu}\mathcal L&=\pmb\Sigma^{-1}\sum_{i=1}^N(\pmb\mu-\pmb x_i)\\
\nabla_{\pmb\Sigma}\mathcal L&=\frac12\pmb\Sigma^{-1}\left\lbrace-\left[\sum_{i=1}^N(\pmb x_i-\pmb\mu)(\pmb x_i-\pmb\mu)^T\right]\pmb\Sigma^{-1}+N\pmb I\right\rbrace\\
\hat{\pmb\mu}&=\frac1N\sum_{i=1}^N\pmb x_i\\
\hat{\pmb\Sigma}&=\frac1N\sum_{i=1}^N(\pmb x_i-\hat{\pmb\mu})(\pmb x_i-\hat{\pmb\mu})^T
\end{align*}
\]
应用
- 通过大量数据,学习不同类的多元高斯分布的似然函数,得到每个类的多元高斯分布;
- 在测试数据上分类。
朴素贝叶斯分类器
如果每个变量都需要得出先验概率,那么 \(P(\pmb x\mid y)=P(x^{(1)},x^{(2)},\dots,x^{(n)}\mid y)\) 需要 \(\prod_{i\in[1..n]}C(x^{(i)})\),其中 \(C(x^{(i)})\) 为这一维的可能值,这个数据量可能会相当的大。除非这些变量满足多元高斯分布等特殊分布可以简化结果,否则无法使用。
假设所有特征都是独立的,也可以简化这一结果。
\[\begin{align*}
P(\pmb x\mid y)=P(x^{(1)},x^{(2)},\dots,x^{(n)}\mid y)=\prod_{i\in[1..n]}P(x^{(i)}\mid y)
\end{align*}
\]
贝叶斯分类器和逻辑回归的关联性
先考虑二分类的情况 \(y\in\lbrace0,1\rbrace\)
\[\begin{align*}
P(y=0\mid\pmb x)&={P(\pmb x\mid y=0)P(y=0)\over P(\pmb x\mid y=0)P(y=0)+P(\pmb x\mid y=1)P(y=1)}\\
&=\frac1{1+\exp(-a)},\\
a&=\ln{P(\pmb x\mid y=0)P(y=0)\over P(\pmb x\mid y=1)P(y=1)}\\
&=\ln{P(\pmb x\mid y=0)\over P(\pmb x\mid y=1)}+\ln{P(y=0)\over P(y=1)}
\end{align*}
\]
如 果 \(\pmb x\) 服从多元高斯分布,那么 \(P(\pmb x;\pmb\mu,\pmb\Sigma)=\frac1{(2\pi)^{n/2}\cdot\vert\pmb\Sigma\vert^{1/2}}\exp\left[-\frac12(\pmb x-\pmb\mu)^T\pmb\Sigma^{-1}(\pmb x-\pmb\mu)\right]\)
\[\begin{align*}
a&=\ln{P(\pmb x\mid y=0)\over P(\pmb x\mid y=1)}+\ln{P(y=0)\over P(y=1)}\\
&=\ln{P(\pmb x\mid \pmb\mu_0,\pmb\Sigma_0)\over P(\pmb x\mid \pmb\mu_1,\pmb\Sigma_1)}+\ln{P(y=0)\over P(y=1)}\\
&=\pmb w^T(\pmb x-\pmb x_0)
\end{align*}
\]
其中 \(\pmb w,\pmb x_0\) 对应上面多元高斯分布的三种情况。
对于多分类的情况,将多分类分为多个二分类即可。