时间序列的预处理
时间序列的预处理
平稳性检验
特征统计量
一个随机变量的统计特征可以由它的分布函数或密度函数来决定。随机变量族(就是一组样本)的所有统计特性完全由他们的联合分布函数或联合密度函数决定。时间序列可以看作一个随机变量族。
时间序列的概率分布:
与多元随机变量的分布函数表示方法一致。由这些有限维分布函数构成的全体,称为时间序列的概率分布族
实际应用中几乎不可能得到序列的联合分布,所以联合分布几乎不这么用。鉴于此,我们通常是研究时间序列的低阶矩(均值、方差、自协方差、自相关系数,也称特称统计量)
有必要说明一下以下这些统计量的意义。以均值为例,对于一组样本来说,未观测前,我们取其为\(X_{1},X_{2},X_{3},...,X_{n}\),观测后取其为\(x_{1},x_{2},x_{3},...,x_{n},\),对于未观测前的每一组样本,都有其可能的取值以及取到该值的概率,据此得到每一组样本各自的统计量取值。因此,统计量是针对于每一组样本而计算而得出的,而非是对观测后的序列来套入公式进行计算。
1.时间序列的均值
取遍所有时间得到均值函数序列。
2.时间序列的方差
取遍所有时间得到方差函数序列。
3.自协方差
4.自相关系数
说明一下,自协方差和自相关系数度量的是一组样本内部之间的关系(算法一样,说法不一样)。
平稳时间序列的定义
严平稳时间序列
是一种条件比较苛刻的平稳性定义。它认为只有当序列所有的统计性质都不会随着时间的推移而发生变化时,该序列才能被认为平稳。
对时间序列\(\left \{ X_{t}, t\in T \right \}\),若对任意正整数\(m\),任取\(t_{1},t_{2},L,t_{m} \in T\), 任意正整数\(\tau\),有
则该时间序列为严平稳时间序列,在实际应用中很难得到随机序列的联合分布,故通常使用的是宽平稳序列。
宽平稳时间序列
是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计性质主要由它的低阶矩来决定,所以只要保证序列低阶矩平稳(二阶),就能保证序列的主要性质近似稳定。这是通过时间序列的概率分布来定义的。
对于一个时间序列,满足以下三个条件:
1.任取\(t \in T\), 有\(E\left ( X_{t}^{2} \right ) < \infty\)(即二阶样本矩存在);
2.任取\(t \in T\), 有\(E\left ( X_{t} \right ) = \mu ,\mu\)为常数;
3.任取\(t,s,k \in T\), 且\(k+s-t \in T\), 有\(r(t,s) = r(k,k+s-t)\)或\(r(t,s) = r(t+\tau ,s+ \tau)\),说明一下第三条的意思,就是指在时间序列的样本族中任取两个时间点,则对这两个时间点同时加上任意时间,使得增加后的两时间点依旧在样本族中,则增加前后的两时间点自相关系数相同。
则称该时间序列为宽平稳(弱平稳/二阶平稳)时间序列。
正态时间序列(样本服从正态分布)
平稳时间序列的统计性质
1.均值为常数
2.自协方差函数和自相关函数只依赖于时间的平移长度而与时间的起止点无关。
依赖于性质2,可以得出在时间序列当中,自协方差函数r(t,s)完全可以退化为s和t之差的一元函数,以便于简化运算。
延迟k自协方差函数
对于平稳时间序列,任取\(t \in T\)且\(t+k \in T\),该时间序列的延迟k自协方差函数和延迟k自相关系数定义如下:
延迟k自协方差函数
由此可以推断平稳随机序列具有一定的常数方差,即\(DX_{t} = r(t,t) = r(0)\)
延迟k自相关系数
自相关系数的性质
1.规范性:\(\rho _{0} = 1, \left | \rho_{k} \right | \le 1, \forall k\)
2.对称性:\(\rho _{k} = \rho _{-k}\)
3.非负定性
4.非唯一性:一个平稳时间序列唯一决定其自相关系数,但一个自相关系数未必唯一对应着一个平稳的时间序列。
平稳时间序列的意义
因为时间一去不复返,所以在研究一个问题的时候,对每一个样本,我们不可能取到多个样本观察值,因为取到一个时时间已经过去了,这种特殊的性质导致我们很难像考察普通的样本一样去考察时间序列样本,因此引入平稳性就相当重要了。
平稳性的检验
图检验方法
画时序图和自相关图,观察是否平稳。操作简单,但过于主观。