08_自相关
第8章 自相关
8.1 自相关的后果
除了异方差,违反球形扰动项的另一情形是扰动项存在自相关。
定义 自相关(autocorrelation) / 序列相关(serial correlation)
对于\(\{\epsilon_1,\cdots,\epsilon_n\}\),如果存在\(i \ne j\),使得\(E(\epsilon_i\epsilon_j|X)\ne 0\),即协方差矩阵\(Var(\epsilon|X)\)的非主对角线不全为0,则存在自相关或序列相关。
存在自相关的情况下:
- OLS估计量依然是无偏的、一致的、渐近正态的。
- OLS估计量方差\(Var(\hat\beta|X)\)的表达式不再是\(\sigma^2(X’X)^{-1}\),即\(Var(\epsilon|X) \ne \sigma^2I\)
- 普通标准误的t检验、F检验失效。
- 高斯马尔可夫定理不再成立,OLS不再是BLUE。
8.2 自相关的例子
例子:
- 时间序列自相关。
- 经济活动通常具有某种连续性或持久性,在时间序列中比较常见。
- 横截面数据中的自相关。
- 相邻单位存在溢出效应,空间自相关。
- 对数据的人为处理。
- MA、内插值、季节调整
- 设定误差。
- 遗漏了某个自相关的解释变量。
8.3 自相关的检验
1.画图
- 将残差\(e_t\)与残差滞后项 \(e_{t-1}\) 画成散点图
- 计算残差的各阶样本相关系数 \(\hat\rho_k\),是滞后阶数 \(k\) 的函数,将 \((k,\hat\rho_k)\) 画图。
2.BG检验
(Breusch,1978;Godfrey,1979)
- 考虑多元线性模型: \(y_i=\beta_1+\beta_2x_{i2}+\cdots+\beta_Kx_{iK}+\epsilon_t\)
- 假设扰动项 \(\epsilon_t\) 存在一阶(高阶)自相关:\(\epsilon_t = \gamma_1\epsilon_{t-1} +\cdots+\gamma_p\epsilon_{t-p}+ \mu_t \quad (t = p+1,\cdots,n)\)
- 由于 \(\epsilon_t\) 不可观测,用 \(e_t\) 替代
- 如果遗漏 \(x_{t}\),可能导致扰动项与 \(e_t\) 相关,使得估计不一致。
- 所以辅助回归为: \(e_t=\gamma_1e_{t-1} +\cdots+\gamma_pe_{t-p}+ \delta_2x_{t2} +\cdots+\delta_kx_{tk}+ v_t\)
- 原假设(无自相关性)为:\(H_0:\gamma_1=\cdots=\gamma_p=0\)
- 拉格朗日统计量:$$LM=(n-p)R^2 \xrightarrow{d} \chi^2(p)$$
(Davidson-MacKinnon,1993):直接把残差中因滞后而缺失的项用期望值0代替。
3.Q检验
另一种思路是检验各阶自相关系数均为0。
- 原假设:\(H_0:\rho_1=\cdots=\rho_p=0\)
- 大样本下,如果原假设成立,\(\hat\rho_j\) 依概率收敛于0,\(\sqrt n \hat\rho_j\) 服从渐近正态分布。
- BP-Q统计量:平方和(对 \(j\) 求和)渐近卡方分布$$Q_{BP} \equiv n\sum_{j=1}p\hat\rho_j2 \xrightarrow{d} \chi^2(p)$$
(Box&Pierce,1970)
- 小样本下,经过改进的Ljung-Box Q统计量性质更好,大样本等价与BPQ。
- LB-Q统计量:调整了自由度$$Q_{LB}\equiv n(n+2)\sum_{j=1}p\frac{\hat\rho_j2}{n-j} \xrightarrow{d} \chi^2(p)$$
Ljung&Box,1979
4.DW检验
DW检验是较早出现的检验,现已不常用。
- 只能检验一阶自相关
- 统计量依赖于数据矩阵X
那就不看了。
8.4 自相关的处理
经过检验发现存在自相关时,有如下四种处理方法。
1.使用“OLS+异方差自相关稳健的标准误” ——NW法
因在存在自相关的情况下,OLS估计量依然无偏且一致,故仍可使用OLS进行回归估计。为了正确进行统计推断,须使用异方差自相关稳健的标准误,这种方法称为Newey-West估计法
- HAC:Heteroskedasticity and Autocorrelation Consistent Standard Error
- 只改变标准误的估计值,不改变回归系数的估计值
- 一般取\(p=n^{1/4}\) 或 \(p=0.75n^{1/3}\) ,比p更高阶的自相关系数将被截断不考虑,p就是截断参数。
Newwy和West,1987
2.准差分法
准差分法(quasi difference) / Cochrane-Orcutt估计法
思路:变换原模型使转换后的扰动项变成球形扰动项。
- 假设原模型:\(y_t=\beta_1+\beta_2x_{t2}+\cdots+\beta_Kx_{tK}+\epsilon_t \quad (t=1,\cdots,n)\)
- 其中 \(\epsilon_t\) 存在自相关,且一阶自相关:\(\epsilon_t=\rho\epsilon_{t-1}+\mu_t\)
- 自回归系数\(|\rho|<1\)
- \(\mu_t\)为白噪声
- 其中 \(\epsilon_t\) 存在自相关,且一阶自相关:\(\epsilon_t=\rho\epsilon_{t-1}+\mu_t\)
- 将原模型滞后一期,两边同乘 \(\rho\) :\(\rho y_{t-1}=\rho(\beta_1+\beta_2x_{t-1,2}+\cdots+\beta_Kx_{t-1,K}+\epsilon_{t-1})\)
- 方程组(n-1个) 的扰动项为球形扰动项,可消除异方差,且消除了自相关。$$y_t-\rho y_{t-1}=(1-\rho)\beta_1+\beta_2(x_{t2}-\rho x_{t-1,2})+\cdots+\beta_K(x_{tK}-\rho x_{t-1,K})+(\underbrace{\epsilon_t-\rho\epsilon_{t-1}}_{\mu_t})\quad {(8.14)}$$
但问题是:损失了一个样本容量,不是最有效率的BLUE。
Cochrane和Orcutt,1949
Prais-Winsten估计法 / PW
思路:不损失样本的话,就需要补一个\(y_1\)的方程,且同方差、无自相关
- 因:\((1 -\rho^2)\sigma_{\epsilon}^2 = \sigma_{\mu}^2\)
- 故:\(\sqrt{1-\rho^2}y_1\)是同方差的,为球形扰动项。将如下方程加入(8.14)就可得到BLUE。$$\sqrt{1-\rho2}y_1=\sqrt{1-\rho2}\beta_1+\sqrt{1-\rho2}x_{12}+\cdots+\sqrt{1-\rho2}x_{1K}+\sqrt{1-\rho^2}\epsilon_1$$
Paris和Winsten,1954,简称PW
无论CO估计法还是PW估计法均不可行(infeasible),在实践中必须用数据估计一阶自回归系数\(\hat\beta\):
- OLS残差进行辅助回归:\(e_t=\hat\rho e_{t-1}+error_t\)
- 残差的一阶自相关系数:$$\hat\rho=\frac{\sum_{t=2}ne_te_{t-1}}{\sum_{t-1}n e_t^2}$$
- DW统计量进行估计:\(\hat\rho=1-\frac{DW}{2}\)
常使用迭代法进行估计,具体步骤:
- 首先,用OLS估计原模型,用残差 {e} 作辅助回归,得到 \(\hat\rho^{(1)}\),再用 \(\hat\rho^{(1)}\)进行CO或PW估计
- 然后,用CO或PW得到的新残差估计 \(\hat\rho^{(2)}\),再用 \(\hat\rho^{(2)}\) 进行CO或PW估计
- 依次类推,直至收敛(即相邻两轮的\(\rho\)与系数估计值之差足够小)。
3.广义最小二乘法
如果同时存在异方差和自相关,应该使用广义最小二乘法(Generalized Least Square,GLS)
思路:通过变量转换,使得转换后的模型满足球形扰动项。
- 协方差矩阵 \(Var(\epsilon |X)=\sigma^2V(X)\) ,首先找到非退化矩阵 C,使得 \(V^{-1}=C'C\)
- 将原模型 \(y=X\beta+\epsilon\) 两边同时左乘C,得到\(Cy=CX\beta+C\epsilon\)
- 记上面的方程为:\(\tilde y=\tilde X\beta+\tilde \epsilon\)
- 可证明:\(Var(\tilde \epsilon|\tilde X)=\sigma^2 I_n\)
- 使用OLS即可得到GLS估计量,与C无关,虽然C不唯一,但是\(\hat \beta_{GLS}\) 唯一:
- 此估计量是BLUE,且比OLS有效率。
定义 可行广义最小二乘法
- 前提条件是要知道协方差矩阵V,而V通常未知,GLS是不可行的。
- 在实践中,必须通过数据估计\(\hat V\),再进行GLS,称为(FGLS)。
命题 对于对称正定矩阵\(V_{n\times n}\),存在非退化矩阵\(C_{n\times n}\),使得\(V^{-1}=C'C\)
4.修改模型设定
有些情况,自相关深层原因可能就是模型设定错了。因此,最好从改进模型设定着手,而不是机械的使用FGLS。
8.5 处理自相关的python命令及实例
1.时间序列算子
![[pandas_docs#16. 时间序列相关的实例方法:]]
2.画残差图
sm.graphics.tsa.plot_acf(y, ax=plt.gca(),zero=False,lags=15)
plt.show()
![[8-5-1残差自相关图.png]]
3.BG检验
from statsmodels.stats.diagnostic import acorr_breusch_godfrey
bg_result = acorr_breusch_godfrey(results, nlags=1)
4.Q检验
from statsmodels.stats.diagnostic import acorr_ljungbox
bp_result = acorr_ljungbox(results.resid,
lags=[i for i in range(1, 14)],
boxpierce=True,
return_df=True,
# auto_lag=True
)
5.DW检验
# from statsmodel.stats impotr durbin_watson
sm.stats.durbin_watson(results.resid)
6.HAC稳健标准误
![[statsmodel_docs#处理方法:HAC稳健标准误]]
7.处理一阶自相关的FGLS
此部分内容很复杂,代码后续补充