Machine Learning 学习笔记 (4) —— 广义线性模型

本系列文章允许转载，转载请保留全文！

【请先阅读】【说明&总目录】http://www.cnblogs.com/tbcaaa8/p/4415055.html

1. 指数分布族简介

之前的文章分别介绍了因变量服从高斯分布、伯努利分布、泊松分布、多项分布时，与之对应的回归模型，本文章将阐释这些模型的共同点，并加以推广。

首先非正式地给出指数分布族的定义：

定义如果变量y的分布可以被表示为p(y;η)=b(y)exp(η^TT(y)-a(η))的形式(η为分布的参数)，则称y服从指数分布族

萌萌哒博主能力有限，关于指数分布族无法给出过多解释。如果对指数分布族的性质及a(η),b(y),T(y)的含义等内容有兴趣，请参考维基百科。

维基百科指数分布族参考链接：http://en.wikipedia.org/wiki/Exponential_family

2. 从特殊到一般：验证上述四分布属于指数分布族

2.1 高斯分布

以单变量高斯分布为例进行推导。高斯分布的概率密度函数如下：

$p(y;\mu)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2\sigma^2}\left(y-\mu\right)^2\right)=\frac{\exp\left(-\frac{y^2}{2\sigma^2} \right)}{\sqrt{2\pi}\sigma} \exp\left(\frac{2y\mu-\mu^2}{2\sigma^2} \right)\\=\frac{\exp\left(-\frac{y^2}{2\sigma^2} \right)}{\sqrt{2\pi}\sigma} \exp\left(\frac{\mu}{\sigma^2}y-\frac{\mu^2}{2\sigma^2} \right)$

对比指数分布族定义，可以发现：

$b(y)=\frac{\exp\left(-\frac{y^2}{2\sigma^2} \right)}{\sqrt{2\pi}\sigma} \quad \eta=\frac{\mu}{\sigma^2} \quad T(y)=y \quad a(\eta)=\frac{\mu^2}{2\sigma^2}$

从而验证了高斯分布属于指数分布族。

2.2 伯努利分布

伯努利分布的概率密度函数如下：

$p(y;\phi)=\phi^y(1-\phi)^{1-y}=\exp\left(\ln ( \phi^y(1-\phi)^{1-y}) \right)\\=\exp\left(y\ln \phi + (1-y)\ln (1-\phi) \right)=\exp\left(y\ln \phi -y\ln (1-\phi) +\ln(1-\phi) \right)\\=\exp\left(\ln\frac{\phi}{1-\phi}y-\ln\frac{1}{1-\phi} \right)$

对比指数分布族定义，可以发现：

$b(y)=1 \quad \eta=\ln\frac{\phi}{1-\phi} \quad T(y)=y \quad a(\eta)=\ln\frac{1}{1-\phi}$

从而验证了伯努利分布属于指数分布族。

2.3 泊松分布

泊松分布的概率密度函数如下：

$p(y;\lambda)=\frac{e^{-\lambda}\lambda^y}{y!}=\frac{1}{y!}\exp(\ln(e^{-\lambda}\lambda^y))\\=\frac{1}{y!}\exp(y\ln\lambda-\lambda)$

对比指数分布族定义，可以发现：

$b(y)=\frac{1}{y!} \quad \eta=\ln\lambda \quad T(y)=y \quad a(\eta)=\lambda$

从而验证了泊松分布属于指数分布族。

2.4 多项分布

注意：在Softmax回归的背景下，对多项分布的自变量n₁...n_k进行了限制，即假设n₁...n_k恰有一个取值为1，其余为0。只有这样才能满足k分类的要求。在这种限制下，多项分布的自变量可以由k维向量转换为取值范围在{1...k}的标量，从而简化运算。在这种情况下，多项分布的概率密度如下： $p(y;\phi_1 \ldots \phi_{k-1})=\left(\prod_{i=1}^{k-1}\phi_i^{\textbf{1}\{ y=i\} }\right)\left( 1-\sum_{l=1}^{k-1}\phi_l \right)^{\textbf{1}\{y=k\}}\\=\exp\left(\sum_{i=1}^{k-1}\textbf{1}\{y=i\}\ln\phi_i + \left(1-\sum_{i=1}^{k-1}\textbf{1}\{y=i\}\right)\ln\left( 1-\sum_{l=1}^{k-1}\phi_l \right)\right)\\=\exp\left(\sum_{i=1}^{k-1}\textbf{1}\{y=i\}\ln\frac{\phi_i}{1-\sum_{l=1}^{k-1}\phi_l}+\ln\left(1-\sum_{l=1}^{k-1}\phi_l\right) \right)$

化简至此，可以发现仍然与指数分布族有些许差距。继续将概率密度化为向量形式：

$p(y;\phi_1 \ldots \phi_{k-1})=\exp\left( \begin{bmatrix}\ln\frac{\phi_1}{1-\sum_{l=1}^{k-1}\phi_l}\\ \vdots\\ \ln\frac{\phi_{k-1}}{1-\sum_{l=1}^{k-1}\phi_l}\end{bmatrix}^T \begin{bmatrix} \textbf{1}\{y=1\}\\ \vdots \\ \textbf{1}\{y=k-1\} \end{bmatrix} -\ln\frac{1}{1-\sum_{l=1}^{k-1}\phi_l} \right)$

有没有似曾相识的感觉呢？如果取k=2，多项分布将退化为伯努利分布：伯努利分布是多项分布的特例，而多项分布是伯努利分布的推广。对比指数分布族定义，可以发现：

$b(y)=1 \quad \eta= \begin{bmatrix}\ln\frac{\phi_1}{1-\sum_{l=1}^{k-1}\phi_l}\\ \vdots\\ \ln\frac{\phi_{k-1}}{1-\sum_{l=1}^{k-1}\phi_l}\end{bmatrix} \quad T(y)=\begin{bmatrix} \textbf{1}\{y=1\}\\ \vdots \\ \textbf{1}\{y=k-1\} \end{bmatrix} \quad a(\eta)=\ln\frac{1}{1-\sum_{l=1}^{k-1}\phi_l}$

从而验证了多项分布属于指数分布族。

函数1{·}的含义参看本系列上一篇文章，此处不再赘述。参见：http://www.cnblogs.com/tbcaaa8/p/4486297.html

3. 广义线性模型

广义线性模型基于如下三点假设：

假设一 y⁽ⁱ⁾|x⁽ⁱ⁾相互独立且满足同一属于指数分布族的分布

假设二 E(T(y(i))|x(i))是y⁽ⁱ⁾|x⁽ⁱ⁾所满足的分布的参数

假设三 模型具有线性性，即η=θ^Tx

基于以上假设，广义线性模型中的对数似然函数可以表示为如下形式：

$\ln L(\theta)=\sum_{i=1}^{m}\left(\ln b(y^{(i)})+\eta^T(T(y^{(i)}))-a(\eta)\right)=\sum_{i=1}^{m}\left(\ln b(y^{(i)})+(x^{(i)})^T\theta T(y^{(i)})-a(\theta^Tx^{(i)})\right)$

下面求似然函数的极大值：

$\frac{\partial}{\partial\theta_j}\ln L(\theta)=\sum_{i=1}^{m}\left( T(y^{(i)})-\frac{\partial a(\eta)}{\partial \eta} \right)x_j^{(i)}$

在线性回归、逻辑回归、泊松回归和Softmax回归中，将相关参数带入上式，即可得到对其损失函数求导后的结果（损失函数自身的意义小于其导函数的意义）。随后可以使用梯度下降(上升)法求解，也可以直接利用牛顿法求解。

注：线性回归由于参数σ²的存在，处理过程稍有不同，但结果是一致的；上式与损失函数求导后的结果相比，可能有符号的差别，这与损失函数的定义有关。

至此，广义线性模型问题基本解决，但仍遗留有一些细节问题。例如，在线性回归、逻辑回归、泊松回归和Softmax回归中提到的假设函数h_θ(x)是怎么得出的？

在指数分布族中，未知参数为η，而我们想要求得的参数是一个权重向量θ。h_θ(x)的作用，正是将二者关联起来，因此也称之为连接函数。在广义线性模型中，参数η其实是概率分布的某个参数(如高斯分布的参数μ,伯努利分布的参数Φ等)的函数，例如η=η(μ)等等，而连接函数则是其反函数，即μ=η^-1(η)。解出反函数后，将η=θ^Tx带入其中，即可得到h_θ(x)。

那么，对于一个给定的回归模型，连接函数的选取是否是唯一的呢？

在一般情况下，应选择η^-1作为连接函数。但选择形态上与其类似的函数作为连接函数也是可以的，例如在逻辑回归中，可以选择双曲正切函数代替sigmoid函数，只不过此时的回归模型不再是标准的回归模型了。

posted @ 2015-05-16 18:17 橴樰阅读(6851) 评论(0) 编辑收藏举报

刷新页面返回顶部

每天吃喝睡活到一百岁

Machine Learning 学习笔记 (4) —— 广义线性模型

公告

每天吃喝睡 活到一百岁

Machine Learning 学习笔记 (4) —— 广义线性模型

公告

每天吃喝睡活到一百岁