计量经济学导论16:面板数据模型
面板数据模型
经济数据模型
在介绍面板数据之前,我们先回顾一下计量经济学中涉及的各类数据类型。
横截面数据,Cross-sectional Data ,指在特定的时点上,对个人、家庭、企业、城市、省份、国家或一系列其他单位采集的样本所构成的数据集。
- 通常假定样本是从总体中随机抽样而得到的,常用指标集 \(i=1,2,\cdots,n\) 表示随机样本。
- 计量分析的结果与数据的排序无关。
时间序列数据,Time-series Data ,指由一个或几个变量不同时间的观测值所构成,或是由同一观测个体在不同时点上所观测的数据构成。
- 时间序列的数据前后之间具有相关性。
- 常用时间指标集 \(t=1,2,\cdots,T\) 表示有序样本数据,不满足随机样本的设定。
混合截面数据,Pooled Cross-sections Data ,指既有横截面数据的特点,又有时间序列数据特点的数据。为了扩大样本容量,可以将数据合并成一个混合截面数据。
- Cross-section 与 Time-series 同时存在,需引入两组指标集 \(i=1,2,\cdots,n\) 和 \(t=1,2,\cdots,T\) 分别表示随机样本和时间序列。
- 在计量分析过程中,需要引入表示时间变化的虚拟变量以扩大样本容量。
- 不同时间点上的截面个体可能不一样。
- 例如:2008年,随机抽取一组家庭针对某些变量做调查;2010年,再随机抽取一组新家庭做调查。
面板数据,Panel Data,指将横截面数据域时间序列数据结合起来的数据,即对横截面中的观测个体在时间上进行连续观测所得到的数据。
- 不同时点上相同截面个体,即只在第一期做随机抽样,后面都在观察这一组样本的数据。
- 例如:收集同一组公司不同时点的财务信息。
- 面板数据通常能够研究决策行为或结果中滞后的重要性,所以反映的信息更有意义。
- 由于面板数据要求对同一组个体在不同时期进行重复观测,因此面板数据的收集成本更大。
面板数据模型的基本形式
面板数据模型同时包含了截面和时间两个维度,设 \(i=1,2,\cdots,n\) 表示截面个体,\(t=1,2,\cdots,T\) 表示时间。面板数据模型的基本形式为
模型误差一般可以认为由三部分组成:
\(\alpha_i\) 表示个体效应、非观测效应、固定效应,表示那些不随时间改变的影响因素,如个人的消费习惯、企业文化、经营风格等。
\(\lambda_t\) 表示时间效应,用于控制随时间改变的影响,如用于表示技术进步的时间趋势项。
\(\varepsilon_{it}\) 表示特异性误差、时变误差,是整个模型的随机误差项。
在这里将 \(\alpha_i\) 和 \(\lambda_t\) 设定为干扰项,因为 \(\alpha_i\) 和 \(\lambda_t\) 在多数情况下都是无法直接观测或难以量化的,因此也就无法作为解释变量进入模型。使用截面分析的模型往往会引起遗漏变量的问题。一般地,我们不考虑时间效应,或者说将 \(\lambda_t\) 的作用并入了 \(\varepsilon_{it}\) 中。此时,我们可以设定线性的面板数据模型为
其中 \(\alpha_i+\varepsilon_{it}=u_{it}\) ,并且假设 \(\varepsilon_{it}\sim N(0,\,\sigma_{\varepsilon}^2)\) 。
根据 \(\alpha_i\) 的不同状态,我们可以将面板数据模型分为三类:混合回归模型,固定效应模型,随机效应模型。其差异主要反映在对个体效应的处理上。
混合回归模型就是由混合截面数据构成的计量经济学模型。正如我们在经济数据模型中介绍的,这里的混合回归模型严格来说并不属于面板数据模型,它是面板数据模型的一种退化形式。当对所有的截面个体 \(i\) ,个体效应 \(\alpha_i\) 均相等时,模型退化为混合回归模型。
混合回归模型的基本形式
混合回归模型假设所有的横截面个体在各个不同的时期的截距和斜率都是相同的,这样可以直接把面板数据混合在一起,或是直接收集不同时间点上的不同截面个体数据,即混合截面数据。
混合回归模型可以直接用 OLS 方法进行参数估计。
固定效应模型的基本形式
固定效应模型的每一个截面个体具有不同的截距项(常数项)。即 \(\alpha_i\) 概括了影响着 \(y_{it}\) 但不随着时间而变化的所有无法观测的因素。
固定的含义:\(\alpha_i\) 是个常数。虽然每个截面个体具有不同的截距项,但是每个截面个体的截距项并不随着时间而变化。即在时间上是固定的,只和个体相关。
由于 \(\alpha_i\) 表现出个体异质性,观测不到,所以一般假设 \(a_i\) 与 \(x_{it}\) 相关:\({\rm Cov}(\alpha_i,\,x_{it})\neq 0\) 。
随机效应模型的基本形式
其中,截距项 \(\alpha_i\) 是一个随机变量,设其均值为 \({\rm E}(\alpha_i)=\alpha\) ,则可以将 \(\alpha_i\) 写为
这里的 \(v_i\) 是一个随机变量,满足零均值假设和同方差假设。随机效应的含义为,假设个体间的差异是随机的,反应在随机干扰项的设定上。
一般假设这种随机的个体间差异与 \(x_{it}\) 无关:\({\rm Cov}(\alpha_i,\,x_{it})={\rm Cov}(v_i,\,x_{it}) = 0\) 。
由于随机效应模型具有多种随机误差项,因此我们需要提出一系列的随机效应模型的方差结构假定:
从上到下依次为:假设两种随机误差项 \(v_i\) 和 \(\varepsilon_{it}\) 均满足零均值假设,假设两种随机误差项 \(v_i\) 和 \(\varepsilon_{it}\) 相互独立,假设时变误差 \(\varepsilon_{it}\) 不具有序列相关性,假设两种随机误差项 \(v_i\) 和 \(\varepsilon_{it}\) 均满足同方差假设。
由于两种随机误差项均不可观测,因此我们常常将两者写在一起。设 \(u_{it}=v_i+\varepsilon_{it}\) ,根据上述假设条件可以得到:
对于个体 \(i\) ,设 \(\boldsymbol{u}_i^{\rm T}=(u_{i1},u_{i2},\cdots,u_{iT})\) ,我们可以写出随机误差项的协方差矩阵:
固定效应模型的参数估计
最小二乘虚拟变量估计法 LSDV
由于固定效应模型假设存在着“个体效应”,每个截面个体都有其单独的截距项。这就相当于在经典的线性回归模型中,通过加法方式引入 \(n-1\) 个虚拟变量来代表不同的个体。如果省略模型的常数项 \(\beta_0\) ,则引入 \(n\) 个虚拟变量。
如果一元的固定效应模型设定为
假设上式为含截距项的模型,因此我们可以引入 \(n-1\) 个虚拟变量:
此时我们的虚拟变量模型设定为:
对上式进行 OLS 回归,我们可以得到 LSDV 估计量 \(\hat\beta_1\) 。
该模型还可以用来检验应该选择混合回归模型还是固定效应模型。利用受约束回归模型和 \(F\) 检验,约束条件为 \(\gamma_1=\gamma_2=\cdots=\gamma_{n-1}=0\) 。如果接受原假设,则认为不存在个体异质性,此时应该选择混合回归模型。如果拒绝原假设,则认为存在个体异质性,此时应该选择固定效应模型。
一阶差分法 FD
在固定效应模型中,截距项 \(\alpha_i\) 表示的个体异质性是一个常数,且并不随着时间而变化。因此,我们可以通过差分的方式消去模型中的个体异质性,从而可以使用 OLS 进行回归。
考虑一元的情况,假设固定效应模型设定如下:
写出一阶滞后的情况:
两式相减得到一阶差分方程:
可以看到,非观测效应 \(\alpha_i\) 被差分掉了,因此上述模型只要满足经典假设便可以通过 OLS 回归进行参数估计。由一阶差分方程得到的 OLS 估计量称为一阶差分估计量 \(\hat\beta_{1,fd}\) 。
为了保证 \(\hat\beta_{1,fd}\) 的一致性,需假定 \(\Delta X_{it}\) 与 \(\Delta\varepsilon_{it}\) 无关:
需要注意的是,一阶差分法可能会存在 \(\Delta\varepsilon_{it}\) 和 \(\Delta\varepsilon_{i,t-1}\) 相关的问题。
固定效应转换法 FE
又称为除时间均值法、固定效应估计法、组内变换法。当 \(n\) 很大时,利用 LSDV 回归会损失大量的自由度,可以考虑对模型进行变化,消去常数项,再用变换后的模型进行回归。该模型的另一好处是可以消除 \(\alpha_i\) 与其他解释变量的相关性。
仍然考虑一元的情况:
对每个横截面个体 \(i\) 求方程在时间上的均值(组间均值):
两个模型相减得到:
经过变换后的模型即可通过混合 OLS 进行参数估计。基于除时间均值变量的混合 OLS 估计量被称为固定效应估计量 \(\hat\beta_{1,fe}\) 。
随机效应模型的参数估计
随机效应模型将固定效应模型的个体异质性归入到随机误差项中,因此更加灵活,也具有更加复杂的随机误差项的结构。此时我们需要通过变换,构造出符合基本假设的随机误差项。因此我们使用 GLS 进行参数估计。
仍然考虑一元的随机效应模型:
假设该模型含有截距项,设 \(u_{it}=v_i+\varepsilon_{it}\) 为模型的非观测误差。
定义:\(\lambda=1-\displaystyle\frac{\sigma_\varepsilon}{\sqrt{\sigma_\varepsilon^2+T\sigma_v^2}}\) , \(\bar{y}_i=\displaystyle\frac{1}{T}\sum_{t=1}^Ty_{it}\) ,\(\bar{x}_i=\displaystyle\frac{1}{T}\sum_{t=1}^Tx_{it}\) 。我们可以做如下变换:
可以验证此时的随机误差项不存在序列相关性:\({\rm Cov}(u_{it}-\lambda\bar{u}_i,\,u_{is}-\lambda\bar{u}_i)=0\) 。对变换后的方程进行 OLS 回归得到 GLS 估计量 \(\hat\beta_{1,re}\) ,也被称作随机效应估计量。在满足 \({\rm E}(u_{it}|x_{it})=0\) 假设条件下,随机效应估计量是有效的。
随机效应模型与固定效应模型的选择
豪斯曼检验
这里的豪斯曼检验并非内生性检验,而是随机效应检验。检验的基本思路:如果 \({\rm Cov}(\alpha_i,\,x_{it})\neq0\) ,则 GLS 估计量是有偏和非一致的,但是固定效应估计量是无偏且一致的。所以,如果模型的异质性与解释变量之间是正交的,则应将模型设定为随机效应模型,否则设定为固定效应模型。
这里的正交指的是:若 \({\rm E}(XY)=0\) ,则称随机变量 \(X\) 和 \(Y\) 正交。
\(H_0\) :个体异质性与 \(x_{it}\) 不相关。
\(H_1\) :个体异质性与 \(x_{it}\) 相关。
用矩阵和向量的形式,构造 Wald 统计量:
其中 \(k\) 是解释变量的个数。
如果拒绝原假设,则选择固定效应模型;如果接受原假设,则选择随机效应模型。
实证研究中的模型选择问题
- 固定效应模型仅适用于所抽到的横截面单位,不适用于样本以外的单位。即如果所抽取的样本本身是总体,例如从全国抽取所有的省份,那么固定效应模型就是一个合理的面板数据模型。
- 如果想以样本结果对总体进行推断分析,那么应该选用随机效应模型,即把反映个体差异的特定常数项看作是跨个体成员的随机分布更为合适。例如从全国抽取部分省,固定效应模型便仅适用于所抽到的个体成员单位,而不适用于样本之外的其他单位,这时采用随机效应模型就较为合适。