13-少年,玩模型吗?手把手教你statsmodels建模(4)

Posted on 2017-07-16 21:28  LoveAI  阅读(2460)  评论(0编辑  收藏  举报

今天是机器学习和数据挖掘『基础篇』的最后一次学习笔记分享,下周即将开启干货满满的『挖掘篇』。不知道大家有没有被漫长的前戏折磨疯了?真实的学习就是这样,心血来潮没用,激情万丈也没用,终将零落成泥碾作尘。只有”水滴石穿“的坚持,才能将冰冷的知识融于血液,化为己有。待到山花烂漫时,你看知识是鲜活的,数据是有用的,科技在你面前云卷云舒。不再有对人工智能的警惕,也不再有被机器人淘汰的恐慌,你在ABC(AI, Big Data, Cloud Computing)时代如鱼得水。为什么不纵身一跃投身历史潮流呢?让观望的人们继续观望,迟疑的人们继续迟疑。人生只有一次,让我们握紧这手中唯一筹码。

 

下面是今天的学习笔记:如何应用statsmodels统计建模库进行线性回归和逻辑回归建模,以及模型的评估和改进。

 

5线性模型

 

1. 线性回归

 

在统计学中,线性回归(Linear regression)是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配(回顾上周的最优化方法)。

 

 

 

在统计学中,QQ Plot(Q代表分位数Quantile)是一种通过画出分位数来比较两个概率分布的图形方法。首先选定区间长度,点(x,y)对应于第一个分布(x轴)的分位数和第二个分布(y轴)相同的分位数。如果被比较的两个分布比较相似,则其QQ图近似地位于y = x上(本例子是和相同均值、标准差的正态分布的各分位数做对比)。

 

 

2. 逻辑回归

 

逻辑回归:y=sigmoid(w'x)

线性回归:y=w'x

逻辑回归比线性回归多了一个sigmoid函数,sigmoid(x)=1/(1+exp(-x)),其实就是对x进行归一化操作,使得sigmoid(x)位于0~1。

逻辑回归通常用于二分类模型,y的值表示属于第1类的概率,用户可以自己设置一个分类阈值(常用0.5),大于这个阈值则预测归为第1类,反之归为第2类。

 

 

总结:如何评估模型拟合效果?线性回归看R-Square,如果太小,则认为拟合效果不好,还可以看残差是否符合正态分布。相应地,逻辑回归可以看Pseudo R-squ.。线性回归和逻辑回归都可以看特征变量或截距参数的P值,如果>0.05则认为是对于模型贡献不显著,可以去掉。如何改进模型?可以去掉对模型贡献不显著的特征变量或截距项,或尝试加上特征变量的交互项(如x1*x2)重新建模。

 

夏天总是让人精疲力尽,拼不了体力的季节,就拼脑力吧!下周我们开启精彩纷呈的『挖掘篇』,敬请期待:)