计量经济学导论14:定性响应回归模型

定性响应回归模型

线性概率模型

线性概率模型的模型设定

当我们在用多元线性回归模型去解释一个二值结果时,该模型就成为线性概率模型。为什么是线性概率,我们在后面的分析中便可以看到。

对于线性概率模型,其模型设定为:

\[Y=\beta_0+\beta_1X_1+\cdots+\beta_kX_k+u \ , \]

其中因变量 \(Y\) 是一个定性响应变量:

\[Y= \left\{ \begin{array}{l} 0\\ 1 \end{array} \right. \ . \]

进行参数估计的时候,我们仍然采取OLS的思想,直接进行回归。我们也可以将模型写成数学期望的模式,这一点对于我们的分析很重要:

\[{\rm E}(Y|X)=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_kX_k=\boldsymbol{X\beta} \ . \]

为了分析方便,下面简单考虑一元线性概率模型:

\[Y=\beta_0+\beta_1X_1+u \ , \]

由于 \(Y\) 具有二元离散分布,我们可以得到 \({\rm E}(Y|X_1)\) 的含义是:

\[{\rm E}(Y|X_1)=1\times P(Y=1|X_1)+0\times P(Y=0|X_1)=P(Y=1|X_1) \ . \]

\[P(Y=1|X_1)=\beta_0+\beta_1X_1 \ . \]

我们称 \(P(Y=1|X)\) 为响应概率(response probability)。因为这个响应概率是参数 \(\beta\) 的线性函数,因此这种带有二值因变量的多元线性回归模型被称为线性概率模型。

此外,我们可以通过求导得到 LPM 的边际效应:

\[\frac{\partial P(Y=1|X_1)}{\partial X_1}=\beta_1 \ . \]

其含义为:在保持其他因素不变的情况下,\(\beta_1\) 度量了因 \(X_1\) 的变化导致的成功概率的变化。

线性概率模型的缺点

(1) 取值界限问题

在 OLS 估计下,响应概率的预测值表达式为:

\[P(\widehat{Y_i=1}|X_i)=\hat\beta_0+\hat\beta_1X_i \ , \]

随着 \(X_i\) 的变化,响应概率的预测值有可能超出 \(\left[0,\ 1\right]\) ,即无法保证 \(0\leq P(Y=1|X)\leq1\)

(2) 异方差问题

定义响应概率为 \(p(X) \triangleq {\rm E}(Y|X)=P(Y=1|X)\) ,可以看出响应概率是解释变量 \(X\) 的函数。接下来我们求随机干扰项的条件方差:

先求 \(Y\) 的二阶矩:

\[{\rm E}(Y^2|X)=1\times P(Y^2=1|X)+0\times P(Y^2=0|X)=P(Y=1|X)={\rm E}(Y|X) \ , \]

进而求 \(u\) 的条件方差:

\[{\rm Var}(u|X)={\rm Var}(Y|X)={\rm E}(Y^2|X)-[{\rm E}(Y|X)]^2={\rm E}(Y|X)-[{\rm E}(Y|X)]^2 \ , \]

将响应概率代入可以得到

\[{\rm Var}(u|X)=p(X)-[p(X)]^2=p(X)[1-p(X)] \ . \]

因此可以看出 \({\rm Var}(u|X)\) 不是常数,而是一个关于解释变量 \(X\) 的函数。

(3) 干扰项非正态性问题

由上述异方差问题的推导过程,我们可以看出干扰项 \(u=Y-\beta_0-\beta_1X\) 也服从伯努利分布,导致在小样本情况下统计推断困难。

解决方案

针对上述问题,我们也有相应的解决方案。

\(Y\) 发生的响应概率描述成关于 \(\boldsymbol{X}\boldsymbol\beta\) 的一个函数 \(G(\boldsymbol{X}\boldsymbol\beta)\) ,且满足 \(0\leq G(\boldsymbol{X}\boldsymbol\beta)\leq 1\) 。容易想到,我们可以利用概率的累积分布函数建立非线性概率模型,概率分布函数的取值范围是 \([0,\ 1]\) 。即模型设定如下:

\[P(Y=1|X)=F(\gamma_0+\gamma_1X) \ , \]

\[Y=F(\gamma_0+\gamma_1X)+\varepsilon \ . \]

该分布函数的形式决定了不同的模型:

  • \(F(\cdot)=\Phi(\cdot)\) 时,\(P(Y=1|X)=\Phi(\gamma_0+\gamma_1X)\),称为 probit 模型。
  • \(F(\cdot)=\Lambda(\cdot)\) 时,\(P(Y=1|X)=\Lambda(\gamma_0+\gamma_1X)\),称为 logit 模型。

下面我们详细介绍这两类模型的分布函数。

两种非线性概率模型

Probit 模型

分布函数:标准正态分布

\[\Phi(z)=\int_{-\infty}^z\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{x^2}{2}\right){\rm d}x \ . \]

模型设定:

\[P(Y=1|X)=\Phi(\gamma_0+\gamma_1X) \ . \]

参数估计:

\[P(\widehat{Y=1}|X)=\Phi(\hat\gamma_0+\hat\gamma_1X) \ . \]

边际效应:

\[\frac{\partial P(Y=1|X_1)}{\partial X_1}=\phi(\gamma_0+\gamma_1X)\cdot \gamma_1 \ . \]

Logit 模型

分布函数:Logit 分布函数

\[\Lambda(z)=\frac{e^z}{1+e^z} \ . \]

密度函数:Logit 概率密度

\[\lambda(z)=\frac{e^z}{[1+e^z]^2} \ . \]

模型设定:

\[P(Y=1|X)=\Lambda(\gamma_0+\gamma_1X)=\frac{e^{\gamma_0+\gamma_1X}}{1+e^{\gamma_0+\gamma_1X}} \ . \]

参数估计:

\[P(\widehat{Y=1}|X)=\Lambda(\hat\gamma_0+\hat\gamma_1X) \ . \]

边际效应:

\[\frac{\partial P(Y=1|X_1)}{\partial X_1}=\lambda(\gamma_0+\gamma_1X)\cdot \gamma_1 \ . \]

机会比率(Odds Ratio):

\[\frac{p}{1-p}=e^{\gamma_0+\gamma_1X} \ . \]

对数机会比率(Logit):

\[\ln\left(\frac{p}{1-p}\right)=\gamma_0+\gamma_1X \ . \]

两种模型的比较

  • 多数情况下,两个模型十分类似,没有必然的原因去选择一个模型而放弃另一个模型。
  • 主要区别在于 logistic 分布具有较为平坦的尾部,也就是说,logistic 分布比标准正态分布以更慢的速度趋近于 \(0\)\(1\)
  • 因为 Logit 模型在数学及解释意义上较 Probit 模型简单,所以在实际研究中更多选择 Logit 模型。
  • 在机器学习中,Logit 模型可以作为一种常用的监督学习的分类器。

极大似然估计

考虑一个多元 Probit 或 Logit 模型,我们仍然用 \(F(\cdot)\) 表示累积分布函数:

\[{\rm E}(Y|\boldsymbol{X})=F(\beta_0+\beta_1X_1+\cdots+\beta_kX_k)=F(\boldsymbol{X\beta}) \ , \]

由于 \({\rm E}(Y|\boldsymbol{X})\) 的非线性性质,所以 OLS 和 WLS 都不适用。

我们用 \(p\) 来表示响应概率 \(P(Y=1|\boldsymbol X)\) ,此处 \(p\) 仍然是关于 \(\boldsymbol{X}\) 的函数,在这里我们省略了解释变量 \(\boldsymbol X\) 。由于我们观察不到 \(p\) 的值,而只能观察到 \(Y\) 的结果。又由于 \(Y\) 是二值变量,服从伯努利分布,即

\[P(Y_i=1|\boldsymbol X)=p_i \ , \ \ \ \ P(Y_i=0|\boldsymbol X)=1-p_i \ , \]

因此我们可以用极大似然估计的方法来进行参数估计。此外,因为极大似然估计基于 \(Y\) 在给定 \(\boldsymbol{X}\) 下的分布,所以 \({\rm Var}(Y|\boldsymbol{X})\) 中的异方差性自动得到解释。

伯努利分布的概率分布函数:

如果随机变量 \(X\) 只取 \(0\)\(1\) 两个值,并且相应的概率为:

\[P(X=1)=p \ , \ \ \ \ P(X=0)=1-p \ , \ \ \ \ 0<p<1 \ , \]

则称随机变量 \(X\) 服从参数为 \(p\) 的伯努利分布,\(X\) 的概率分布函数可写为

\[f(x)=\left\{ \begin{array}{lc} p^x(1-p)^{1-x}\ \ , & x=0,\,1 \\ 0 \ \ , & x\neq0,\,1 \end{array}\right. \ . \]

把每一个观测值都看成是一个独立的伯努利分布,构造 \(Y_i\) 在给定 \(\boldsymbol{X}_i\) 下的概率分布函数:

\[f(Y_i|\boldsymbol{X}_i,\boldsymbol\beta)=\left[F(\boldsymbol{X}_i\boldsymbol\beta)\right]^{Y_i}\left[1-F(\boldsymbol{X}_i\boldsymbol\beta)\right]^{1-Y_i} \ , \ \ \ \ Y_i=0,\,1 \ . \]

为了简便表示,我们省略条件并且用 \(p_i\) 代替响应概率:

\[f(Y_i)=p_i^{Y_i}(1-p_i)^{1-Y_i}\ , \ \ \ \ Y_i=0,\ 1 \ . \]

于是样本容量为 \(n\)\(Y\) 值的联合分布函数为:

\[f(Y_1,Y_2,\cdots,Y_n)=\prod_{i=1}^nf(Y_i)=\prod_{i=1}^np_i^{Y_i}(1-p_i)^{1-Y_i} \ . \]

以上联合概率分布称为似然函数,对上式两边取自然对数,可以计算得到对数似然函数:

\[\begin{aligned} \ln\, L(\boldsymbol\beta)&=\ln\left(\prod_{i=1}^n f(Y_i|\boldsymbol{X_i},\boldsymbol{\beta}) \right)\\ &=\sum_{i=1}^n\ln f(Y_i|\boldsymbol{X_i},\boldsymbol{\beta}) \\ &=\sum_{i=1}^n\left[Y_i\ln p_i+(1-Y_i)\ln(1-p_i)\right] \\ &=\sum_{i=1}^n\left[Y_i\ln\frac{p_i}{1-p_i}\right]+\sum_{i=1}^n\ln(1-p_i) \ . \\ \end{aligned} \]

通过最大化对数似然函数得到 \(\boldsymbol\beta\) 的极大似然估计量 MLE :

\[\max\ \ln\, L(\boldsymbol\beta) \ \ \ \ \Longrightarrow \ \ \ \ \hat\beta_0,\ \hat\beta_1,\cdots,\ \hat\beta_k \ . \]

对于 Logit 模型,我们有

\[\ln\frac{p_i}{1-p_i}=\beta_0+\beta_1X_{i1}+\cdots+\beta_kX_{ik} \ , \]

\[1-p_i=\frac{1}{1+e^{\beta_0+\beta_1X_{i1}+\cdots+\beta_kX_{ik}}} \ . \]

所以对数似然函数可以写为:

\[\ln L(\boldsymbol\beta)=\sum_{i=1}^n\left[Y_i(\beta_0+\beta_1X_{i1}+\cdots+\beta_kX_{ik})\right]-\sum_{i=1}^n\ln\left(1+e^{\beta_0+\beta_1X_{i1}+\cdots+\beta_kX_{ik}}\right) \ . \]

最大化上面的对数似然函数,使观测到的 \(Y\) 的概率尽可能大,就可以得到 \(\boldsymbol\beta\) 的参数估计值。

似然比检验

基本思想:由于 MLE 最大化了对数似然函数,所以施加约束条件一般会导致一个更小(不会更大)的对数似然函数值。

假设检验如下的约束条件:

\[H_0:\beta_1=\beta_2=0 \ , \]

则无约束的对数似然函数 \(\ln\, L_{ur}\) 由如下的模型计算得到:

\[P(Y=1|X)=F(\beta_0+\beta_1X_1+\beta_2X_2+\beta_3X_3\cdots+\beta_kX_k) \ , \]

受约束的对数似然函数 \(\ln\, L_r\) 由施加约束条件的模型计算得到:

\[P(Y=1|X)=F(\beta_0+\beta_3X_3+\cdots+\beta_kX_k) \ , \]

构造似然比统计量 \(LR\) 如下:

\[LR=2(\ln\, L_{ur}-\ln\, L_r) \ . \]

\(H_0\) 假设下,似然比 \(LR\) 服从渐进 \(\chi^2\) 分布:

\[LR \sim \chi^2(q) \ , \]

其中 \(q\) 是约数个数。

拟合优度检验

对于极大似然估计的非线性模型,最常用的拟合优度是 McFadden 提出的 \(\text{pseudo-}R^2\)

\[\text{pseudo-}R^2=1-\frac{\ln L}{\ln L_0} \ , \]

其中 \(\ln L_0\) 是表示只有截距项的模型的对数似然函数值。用受约束模型的思想,可以理解为 \(\ln L\) 是无约束模型的对数似然函数值,\(\ln L_0\) 是约束条件为 \(\beta_1=\beta_2=\cdots=\beta_k=0\) 的受约束模型的对数似然函数值,表示解释变量对 \(Y\) 的分类结果均无解释能力。

如果模型是恰好完全拟合的,则 \(\ln L=0\) ,此时 \(\text{pseudo-}R^2=1\)

通常情况下,\(|\ln L|< |\ln L_0|\) ,因此 \(0<\text{pseudo-}R^2<1\)

如果解释变量均无解释能力,则 \(|\ln L|=|\ln L_0|\) ,此时 \(\text{pseudo-}R^2=0\)

posted @ 2021-02-19 01:12  这个XD很懒  阅读(1148)  评论(0编辑  收藏  举报