【数据挖掘技术】Logistic回归
一、回归概述
回归(Regression)分析包括线性回归(Linear Regression),这里主要是指多元线性回归和逻辑斯蒂回归(Logistic Regression)。其中,在数据化运营中更多的使用逻辑斯蒂回归,它包括响应预测、分类划分等内容。
多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归公式(回归方程)就是因变量和自变量关系的数据反映。因变量的变化包括两部分:系统性变化与随机性变化,其中,系统性变化是由自变量引起的(自变量可以解释的),随机变化是不能由自变量解释的,通常也称作残值。
再用来估算多元线性回归方程中自变量系数的方法中,最常用的是最小二乘法,即找出一组对应自变量的相应参数,以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小。
对多元线性回归方程的参数估计,是基于下列假设的:
- 输入变量是确定的量,不是随机变量,而且输入的变量间线性无关,即无共线性;
- 随机误差的期望值总和为零,即随机误差与自变量不相关;
- 随机误差呈现正态分布。
如果不满足上述假设,就不能用最小二乘法进行回归系数的估算了。
逻辑斯蒂回归(Logistic Regression)相比于线性回归来说,在数据化运营中有更主流更频繁的应用,主要是因为该分析技术可以很好地回答诸如预测、分类等数据化运营常见的分析项目主题。简单来说,凡是预测“二选一”事件的可能性(比如,“响应”还是“不响应”;“买”还是“不买”;“流失”还是“不流失”),都可以使用逻辑斯蒂回归。
逻辑斯蒂回归预测的因变量是介于0和1之间的概率,如果对这个概率进行换算,就可以用线性公式描述因变量和自变量的关系了,具体公式如下:
log(p(y=1)/1-p(y=1))=b0+b1*x1+b2*x2+...+bk*xk |
与多元线性回归所采用的最小二乘法的参数估计方法相对应,最大似然法是逻辑斯蒂回归所采用的参数估计方法,其原理是找到这样一个参数,可以让样本数据所包含的观察值被观察到的可能性最大。这种寻找最大可能性的方法需要反复计算,对计算能力有很高的要求。最大似然法的优点是大样本数据中参数的估计稳定、偏差小、估计方差小。
二、逻辑回归技术的实践应用和注意事项
- 逻辑回归的原理
当目标变量是二元变量(即:是与否)的时候,逻辑回归分析是一个非常成熟的,可靠的主流模型算法。
对于二元(是与否)的目标变量来说,逻辑回归的目的就是要预测一组自变量的值相对应的因变量是“是”的概率,这个概率P是介于[0,1]之间的。如果要采用线性回归的方法来进行概率计算,计算的结果很有可能超出[0,1]范围的。在这种情况下,就需要用到专门的概率计算公式,或叫Sigmoid函数,其计算公式如下:
p(y=1)=1/(1+exp(-(b0+b1*x1+b2*x2+...+bk*xk))) |
上述概率算法可以确保二元目标变量的预测概率P是介于[0,1]之间的。
接下来,为了进一步深入了解,这里引入可能性比率(ODDS)这个概率。
2.可能性比率(ODDS)
可能性比率(ODDS)是指一件事情发生的概率除以这件事情不发生的概率后得到的值,博彩活动中的赔率就是可能性比率,其在现实生活中是一个广为人知的应用案例。
可能性比率为5,说明一件事情发生的可能性比不发生的可能性高5倍;
可能性比率为0.2,说明一件事情发生的可能性为不发生的可能性高的1/5;
可能性比率小于1,说明一件事情发生的概率低于50%;
可能性比率大于1,说明一件事情发生的概率大于50%。
与概率不同的是,可能性比率的最小值为0,但最大值可以是无穷大。
可能性比率是逻辑回归中连接自变量和因变量的纽带,我们可以从下面的公式演变中体会这句话的意思。
由于
ODDS=P(y=1)/(1-P(y=1)) |
因此,将ODDS与上面的p(y=1)结合,可得:
ODDS=exp(b0+b1*x1+b2*x2+...+bk*xk) |
即:
log(ODDS)=b0+b1*x1+b2*x2+...+bk*xk |
逻辑回归使用的参数方法通常是最大似然法,利用最大似然法进行参数的估计时,通常有如下步骤:
3.回归中的变量筛选方法
无论是线性回归,还是逻辑回归,在回归拟合的过程中,都要进行变量的筛选,并且有各种不同的筛选方法,其中最常见、最著名的3中方法分别是向前引入法(Foward Selection)、向后剔除法(Backward Elimination)、逐步回归法(Stepwise Selection).
- 向前引入法(Foward Selection):即采用回归模型逐个引入自变量。刚开始,模型中没有自变量,然后引入第一个自变量进入回归方程,并进行F检验和T检验,计算残差平方和。如果通过了检验,则保留该变量。接着引入第二个自变量进入回归模型中,重新构建一个新的估计方程,并进行F检验和T检验,同时计算残差平方和。从理论上说,增加一个新的自变量之后,回归平方和应该增加,残差平方和应该减少。引进一个新变量前后的残差平方和之差额就是新引进的该自变量的偏回归平方和,如果该值明显增大,说明新引进的改自变量对目标变量有显著影响,反之则没有显著影响。向前引入发最大的缺点是最先引入回归方程的变量在随后不会被剔除出去,这会对后面引入的变量的评估过程和结果造成干扰。
- 向后剔除法(Backward Elimination):向后剔除法正好与向前引入法相反,即首先把所有的自变量一次性放入回归模型中进行F检验和T检验,然后逐个删除不显著的变量,删除的原则是根据其偏回归平方和的大小来决定。如果偏回归平方和很大则保留,否则删除之。向后剔除法最大的缺点是可能会引入一些不重要的变量,并且变量一旦被剔除之后,就没有机会重新进入回归模型中了。
- 逐步回归法(Stepwise Selection):该方法综合了上述两种方法的特点。自变量仍然是逐个进入回归模型中,在引入变量时需要利用偏向回归平方和进行检验,只有显著时才可以加入。当新的变量加入模型之后,又要重新对原来的老变量进行偏回归平方和的检验,一旦某变量不显著时就要立即删除该变量。如此循环往复,直到留下来的老变量均不可删除,并且新的变量也无法加入为止。
4.逻辑回归的应用优势
相比于数据挖掘建模常用的其他算法如决策树、神经网络、邻近记忆推理等,逻辑回归技术是最成熟、应用最广泛的,也是数据分析师和数据化运营业务人员最为熟悉的。在各种新的数据挖掘算法层出不 穷的今天,逻辑回归技术仍然是具有最大的活力和最广泛的业务应用基础。
5.逻辑回归应用中的注意事项
逻辑回归实践应用中的注意事项如下:
- 建模数据量不能太少,目标变量中每个类别所对应的样本数量要足够充分,才能支持建模;
- 要注意排除自变量中的共线性问题;
- 异常值(Outliers)会给模型带来很大干扰,应该删除;
- 逻辑回归模型本身不能处理缺失值,所以应该逻辑回归算法是,要注意针对缺失值进行适当的处理,或者赋值,或者替换,或者删除。