用线性方程估计的y是概率值，在仅知道线性回归的情况下，最终得到的回归方程是这样的，虽然观察值只有0和1，但是根据这些点到函数图像的残差平方最小还是可以得出这个回归曲线，但是这与实际情况不符，因为对于二项分布的结果，仅有0和1，没有其他更大或者更小的值，所以就有了logistics回归。

Odds胜算

Odds=成功/失败=p/(1-p)；logistics回归就是log(odds)=βx+β0，即log(p/(1-p))=βx+β0

，此梯度就是斜率。它取决于β和x值，如图所示，随x变化而变化，或者，随β变化而变化：

所以没有办法用最小平方法，因为观察数据不是0就是1，不管是1还是1都会使得ln（）函数无法表达出来。所以使用最大似然估计

前提：

y是1或0。
x是独立的

3.自变量不是彼此的线性组合。

4.图像不是线性的。

5.不要求方差的同质性，因为方差本来就不是同质的。

6.不要求误差分布是正态分布，本来就是针对二项分布的。

分类：

1.如果y是顺序变量，比如疾病轻中重，有序logistics三元回归ordered logistics regression，具体上是两个比较叠加，一个是轻度和中度；一个是中度和重度。

2.如果y是类别变量，比如判别有病或者没病，那就是二元logistics回归

3.条件logistics回归就是基于不同条件下的logistics回归，如图，分成三组：

===========================================================

随机项是计数变量1,2,3,4,5,6等，即y具有泊松分布，此时的连接函数时ln(E(y))，这个对泊松分布取对数的操作就是泊松回归模型。

泊松分布：

一段时间与另一段时间成比例
一段时间发生次数与时间长短成比例
在极短的时间内发生的次数为零

二项分布的极端状况，n趋近无穷大，p趋近于0

公式也可以由二项分布化简而来

过分散是二项分布和泊松数据偶尔出现的现象。对于泊松数据，当响应Y的方差大于泊松方差时，即如果模型是泊松分布，如果模型完全拟合则y的方差与均值应该都相同是一个定值λ，但是有时候观测值得到的方差和均值不同，这就是过分散。

计数数据的零截断和零膨胀模型

零截断意味着响应变量的值不能为0。零膨胀是指计数中有很多零。如果计数资料中含有大量的“0”，则考虑使用零膨胀泊松模型（zero inflated poisson regression， ZIP）或者零膨胀负二项回归

=========================================================

判断有几个变量：

1.做Cp值，如图，如果直线在某处停止，停止处的横坐标便是真实存在几个变量值。

分别计算一个变量的AIC或BIC，两个变量的AIC或BIC....n个变量的AIC或BIC，比较之后，如果AIC或BIC比较小则证明这是真实的变量值。

多元线性回归：β1的解释是，其他x2----Xn都不发生改变（即这些变量被控制），只有x1发生改变，单位改变的x1使得y改变的该变量。用最小二乘法估计矩阵。只有所有向量都是线性独立才能计算特征值，所以之前要判断各变量之间确实没有多元共线性。

======================================

看整体x：决定系数是用于评判所有x变量对于y是不是有贡献对于多元线性模型的理解，可以把它认为是多元方差分析，它的决定系数是：

如果加入更多变量，则决定系数变更大，所以这就是R square不足的地方。于是提出

用来平衡模型的复杂程度。之前用F检验，检测一个β斜率，现在用F检验检测多个β斜率。

======================================

看单个x：贡献率：也可以单独挑出来单个变量，评判单变量对于y是否有贡献

看多个x：看两项合起来的因素组，对y的贡献情况，介于上两者之间。

变异分割中的分数[a]就是该变量分担多少变异

==========================================

如果x有高次项，应该先设定成y=β0+β1x+β2x^2+β3x^3+β4x^4，而不是上来就写y=β0+β1x+β4x^4，因为存在高次项，所以一定会有多重共线性形成，即线性相关性。可以使用以下通式：

Piecewise线性关系就是每一段的斜率都不相同

Dummy variables用于比较多个组，把一个组作为基础组，其他组作为比较组，然后比较，它的解释是自变量是每一个斜率都是两类别变量下的连续值的差距。

=====================

数据转换

转换为正态分布

转换为方差齐性

转换为更简单的模型

不同y值类型与对应方程的选择：

==========================================================

ANOVA是一种特殊的线性回归

如图：线性回归和线性相关之间的关系：r只和斜率的正负号相同，但是不等同于斜率。r取决于x的变异，y的变异和斜率大小。r只看与拟合的图像重合率有多高。

不做任何操作的变异放在分母，操作了之后的变异放在分子，如果回归比较好，那么SSE会比较好。

线性关系比较好的意思就是实际上的点能够match到我设定的模型上。

~N(0,1)

据此就可以求出置信区间。

如果x或y出现计数变量，有以下三种情况，

情况一：X或Y都是计数变量

情况二：X是计数变量，Y是连续变量（方差分析）

情况三：X是连续变量，Y是计数变量

普通的r是person correlation coefficient

Spearman correlation coefficient 是将数值变成数值大小对应的序号。

通常都用。

=========================================

在ANOVA中：

只有一个x时有这样的结论：

T分布与F分布的关系是，从图示上可以认为是将t分布负半轴的部分加和到正半轴来，就变成了F分布：

SSR是1，是因为SSR是，在这里面X是已知的，只有β是变动值，所以是1.

而SSE是n-2，是因为SSE本来来自n个y值，但是该n个值受到两个估计参数的限制

====================================================

多元回归模型的评估步骤

检测变量类型

多重决定系数衡量了所有自变量的总体贡献，之后的adj R square是修正值。

进行残差分析

用于测试函数表达，是线性的还是非线性的，比如加入高次项等。评估违反假设的情况，是何种类型，比如不独立等。

测试参数显著性-整个模型and单个参数

使用F检测（SSR/SSE）来检测模型显著性，同方差分析中对斜率的判别。

测试多重共线性

多重共线性的X变量会导致不稳定参数

判定高度共线性方法：

两两之间下有两种方法

1.协方差矩阵

2.散点图

除此之外还有

3.VIF：

如图所示，仅在X内部计算，与Y没有关系

对X1有相关系数R1，就有VIF1

对X2有相关系数R2，就有VIF2

对X3有相关系数R3，就有VIF3

Max{VIF}>10,则是有危害性的共线性，也就是只要其中的R有任何一个大于0.9那么其对应的VIF就会大于10；只要其中的R有任何一个大于0.8那么其对应的VIF就会大于5 ；

posted on 2019-12-11 21:44 YUANya 阅读(1538) 评论(0) 编辑收藏举报

刷新页面返回顶部

导航