随笔- 14 文章- 0 评论- 5 阅读- 63187

Machine Learning 学习笔记 (3) —— 泊松回归与Softmax回归

本系列文章允许转载，转载请保留全文！

【请先阅读】【说明&总目录】http://www.cnblogs.com/tbcaaa8/p/4415055.html

1. 泊松回归 (Poisson Regression)

在生活中，经常会遇到一类问题需要对一段时间内某一小概率事件的发生次数建模，例如癌症、火灾等。

假设向量x表示引起这一事件发生的因素，向量θ表示因素的权重，则使用h_θ(x)=exp(θ^Tx)表示事件发生次数的期望。θ^Tx位于指数位置，意味着其每增加1个单位，将导至事件发生次数的期望值翻倍。

此时，因变量与自变量近似满足泊松分布，即：y⁽ⁱ⁾~π(h_θ(x⁽ⁱ⁾))。

下面求参数θ的极大似然估计。似然函数：

$L(y|x;\theta)=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)};\theta)=\prod_{i=1}^{m}\frac{e^{-h_\theta(x^{(i)})}h_\theta(x^{(i)})^{y^{(i)}}}{y^{(i)}!}$

对数似然函数：

$\ln L(y|x;\theta)=\sum_{i=1}^{m}(-h_\theta(x^{(i)})} + y^{(i)}\ln (h_\theta(x^{(i)})) - \ln(y^{(i)}!))$

定义损失函数：

$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}(-h_\theta(x^{(i)}) + y^{(i)}\ln (h_\theta(x^{(i)})) )$

要使似然函数最大，只需使损失函数最小。使用损失函数的极小值代替最小值：

$\frac{\partial}{\partial \theta_j}J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}(-h_\theta(x^{(i)})x^{(i)}_j + y^{(i)}\frac{1}{h_\theta(x^{(i)})}h_\theta(x^{(i)})x^{(i)}_j) \quad for\ j=0\ldots n$

化简，有：

$\frac{\partial}{\partial \theta_j} J(\theta) = \frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} \quad for\ j=0\ldots n$

最后，使用梯度下降法迭代求解：

$\theta^{(k+1)}_j=\theta^{(k)}_j-\alpha \frac{\partial}{\partial \theta_j} J(\theta) \quad for\ j=0\ldots n$

其中， $\alpha$ 为学习率。

2. Softmax回归 (Softmax Regression)

利用之前介绍的逻辑回归模型，我们已经可以解决二分类问题。下面，我们将二分类问题推广为k分类问题。

在逻辑回归中，因变量y∈{0,1}，分别对应两个分类；而在Softmax回归模型中，因变量y∈{1,2,...,k}，分别对应k个分类。Softmax回归假定因变量服从参数为Φ₁,...,Φ_k的多项分布，即y(i)~Mult(Φ₁,...,Φ_k)。其中：

$\phi_i=\frac{\exp(\theta_i^Tx)}{1+\sum_{l=1}^{k-1}\exp(\theta_l^Tx)}\quad for\ i=1\ldots k-1$

参数Φ_k是冗余的，利用概率之和等于1的条件，可以得到：

$\phi_k=1-\sum_{i=1}^{k-1}\phi_i=\frac{1}{1+\sum_{l=1}^{k-1}\exp(\theta_l^Tx)}$

同时定义：

$h_\theta(x)=\begin{bmatrix}\phi_1 & \ldots & \phi_{k-1} \end{bmatrix}^T$

$\theta=\begin{bmatrix}\theta_1 & \ldots & \theta_{k-1} \end{bmatrix}^T$

$\theta_i=\begin{bmatrix}\theta_{i0} & \ldots & \theta_{in} \end{bmatrix}^T \quad for\ i=1\ldots k-1$

容易证明，Φ具有如下性质：

$\frac{\partial\ln\phi_i}{\partial\theta_{pq}}=(1-\phi_p)x_q\quad (i=p)$

$\frac{\partial\ln\phi_i}{\partial\theta_{pq}}=-\phi_px_q\quad (i\neq p)$

$for\ i=1\ldots k$

尤其需要注意的是，上述性质对i=k的情况仍然成立，尽管推导过程并不相同。后续证明中将直接使用这些性质。

下面求参数θ的极大似然估计，似然函数：

$L(y|x;\theta)=\prod_{t=1}^{m}P(y^{(t)}|x^{(t)};\theta)=\prod_{t=1}^{m}\prod_{i=1}^{k}\phi_i^{\textbf{1}\{y^{(t)}=i \}}$

其中，函数1{expression}定义如下：当expression为真时，函数值为1；否则为0。Φ的性质可以利用1{·}进一步化简。

对数似然函数：

$\ln L(y|x;\theta)=\sum_{t=1}^{m}\sum_{i=1}^{k}\textbf{1}\{y^{(t)}=i \} \ln \phi_i$

定义损失函数：

$J(\theta)=-\frac{1}{m}\sum_{t=1}^{m}\sum_{i=1}^{k}\textbf{1}\{y^{(t)}=i \} \ln \phi_i$

要使似然函数最大，只需使损失函数最小。使用损失函数的极小值代替最小值：

$\frac{\partial}{\partial\theta_{pq}}J(\theta)=-\frac{1}{m}\sum_{t=1}^{m} \sum_{i=1}^{k}\textbf{1}\{y^{(t)}=i \} \frac{\partial\ln\phi_i}{\partial\theta_{pq}}=-\frac{1}{m}\sum_{t=1}^{m} \frac{\partial\ln\phi_{y^{(t)}}}{\partial\theta_{pq}} \\ =-\frac{1}{m}\sum_{t=1}^{m}( \textbf{1}\{y^{(t)}=p \}-\phi_p)x_q^{(t)}=\frac{1}{m}\sum_{t=1}^{m}(\phi_p- \textbf{1}\{y^{(t)}=p \})x_q^{(t)}$

可以将上式进一步整理为向量形式：

$\frac{\partial}{\partial\theta_{:j}}J(\theta)=\frac{1}{m}\sum_{i=1}^{m}\left(\begin{bmatrix}\phi_1 \\ \vdots \\ \phi_{k-1} \end{bmatrix}- \begin{bmatrix} \textbf{1}\{y^{(i)}=1\} \\ \vdots \\ \textbf{1}\{y^{(i)}=k-1\}\end{bmatrix} \right)x_j^{(i)} \\ =\frac{1}{m}\sum_{i=1}^{m}\left(h_\theta(x^{(i)}) - \begin{bmatrix} \textbf{1}\{y^{(i)}=1\} \\ \vdots \\ \textbf{1}\{y^{(i)}=k-1\}\end{bmatrix} \right)x_j^{(i)} \quad for\ j=0\ldots n$