Machine Learning 学习笔记 (3) —— 泊松回归与Softmax回归
本系列文章允许转载,转载请保留全文!
【请先阅读】【说明&总目录】http://www.cnblogs.com/tbcaaa8/p/4415055.html
1. 泊松回归 (Poisson Regression)
在生活中,经常会遇到一类问题需要对一段时间内某一小概率事件的发生次数建模,例如癌症、火灾等。
假设向量x表示引起这一事件发生的因素,向量θ表示因素的权重,则使用hθ(x)=exp(θTx)表示事件发生次数的期望。θTx位于指数位置,意味着其每增加1个单位,将导至事件发生次数的期望值翻倍。
此时,因变量与自变量近似满足泊松分布,即:y(i)~π(hθ(x(i)))。
下面求参数θ的极大似然估计。似然函数:
对数似然函数:
定义损失函数:
要使似然函数最大,只需使损失函数最小。使用损失函数的极小值代替最小值:
化简,有:
最后,使用梯度下降法迭代求解:
其中,为学习率。
2. Softmax回归 (Softmax Regression)
利用之前介绍的逻辑回归模型,我们已经可以解决二分类问题。下面,我们将二分类问题推广为k分类问题。
在逻辑回归中,因变量y∈{0,1},分别对应两个分类;而在Softmax回归模型中,因变量y∈{1,2,...,k},分别对应k个分类。Softmax回归假定因变量服从参数为Φ1,...,Φk的多项分布,即y(i)~Mult(Φ1,...,Φk)。其中:
参数Φk是冗余的,利用概率之和等于1的条件,可以得到:
同时定义:
容易证明,Φ具有如下性质:
尤其需要注意的是,上述性质对i=k的情况仍然成立,尽管推导过程并不相同。后续证明中将直接使用这些性质。
下面求参数θ的极大似然估计,似然函数:
其中,函数1{expression}定义如下:当expression为真时,函数值为1;否则为0。Φ的性质可以利用1{·}进一步化简。
对数似然函数:
定义损失函数:
要使似然函数最大,只需使损失函数最小。使用损失函数的极小值代替最小值:
可以将上式进一步整理为向量形式:
最后,使用梯度下降法迭代求解:
至此,本系列已经探讨了四个常用的回归模型,其中的泊松回归和Softmax回归初看并不容易理解。关于hθ(x)的来历,以及不同模型中J(θ)相似的原因,将在后续文章中作出说明。