时间序列专题—平稳时间序列(一):自相关(时间趋势图、自相关图)、一阶回归方程
“时间序列数据”根据性质又可以划分为“平稳序列”(stationary)与“非平稳序列”(non-stationary)两大类,需使用不同的计量方法。
一、时间序列自相关
时间序列指同一个体在不同时点上的观测数据。
如,1978-2013年期间,中国每年的国内生产总值。
对于离散时间{1,2,...,T},可将时间序列写为{y1,y2,...,yT}。其中每一个yt都是随机变量。
时间序列最大的特点是存在自相关,不同期的观测值之间存在相关性。
定义 时间序列{yt}的k阶自协方差(autocovairiance of order k)为
stata中的应用:
(一)时间趋势图
tset varname——建立一个时间变量
tsline y,xline(起始年(时间跨度)终止年)——等价于命令“line 因变量 自变量”
但GDP存在指数增长(exponential growth)的趋势。通常的处理方法是,将GDP取对数,把指数趋势变为线性趋势后,生成时间趋势图即:
gen lngdp = log(gdp)
tsline lngdp,xlabel(2000(2)2018)
GDP对数存在线性趋势,但依然不平稳(期望值不断增长)。将GDP对数进行一阶差分,然后画出时间趋势图。
gen dlngdp=d.lngdp——一阶差分
tsline dlngdp,xlabel(2000(2)2018)
之所以考察GDP对数差分,是因为它约等于GDP的增长率。
有时可以直接将Δlnyt视为yt的增长率,如增长率较高,则误差较大。下面对GDP的增长率(g),并对GDP对数差分进行画图对比。
gen g2=(gdp-l.gdp)/(l.gdp)
tsline dlngdp g2,xlabel(2000(2)2018) lpattern(dash)
其中“l.y”是滞后期的式子。
(二)自相关图:corrgram
其中,LAG表示滞后期系数,AC表示自相关系数,PAC表示偏自相关系数,Q表示Q统计量,Autocorrelation将AC这一列用图示的方式表现出来,
若想看出第几阶的自相关系数是否为0:ac dln因变量,lags(20)
其中,“ac”表示“autocorrelation”;选择项“lags(20)”表示1-20阶的自相关图,若不添加前述选择项,则系统默认按照“min{floor(n/2)-2,40}”计算最高阶数,floor(n/2)表示为不超过n/2的最大整数。
按照图中注释,灰色部分代表95%的置信区间。图中的点如果没有超出灰色区域,则其所代表的阶不显著,反之,超出则代表自相关系数显著不为0。
二、一阶自回归
此前的回顾均强调推断因果关系。
在时间序列中,可用该变量的过去值来预测其未来值(因为时间序列一般存在自相关)。——这种模型称为“单变量时间序列”(umivariate time series)。
此时可不必理会因果关系,只考虑相关关系即可。
在内蒙古阿拉善盟2000~2018年GDP总值数据中,以OLS估计Δlnyt的一阶回归模型,仅使用2010年以前的数据来预测2020年的GDP
由于假设干扰项εt无自相关,故使用异方差稳健的标准误即可(,r),不必使用异方差自相关稳健的HAC标准误。
可得下列回归方程:
计算回归方程的拟合值,即上述回归方程的因变量,并记为dlny1。
在stata中,会使用“x[n]”表示“变量x的第n个观测值”,故命令如下:
dis exp( lngdp[15]+ dlngdp1[16])
得出结果:200.53765
其中, lngdp[15]是2015年的GDP值, dlngdp1[16]是2016年GDP的预测值。
根据AR(1)模型,2016年GDP的预测值为200.53765亿元。
对比2013年的实际GDP,并计算预测误差,即(y2013-y2013^):
预测误差为122.04233亿元,低估了122.04233亿元。