Unit Root Test
Dickey-Fuller Unit Root Test
假设时间的起点是$t=0$, 则在$T+1$时刻内, 假设$y_{t}=\phi y_{t-1}+\mu_{t},\ t=1,\ldots,T$, 同时$u_{t}\sim IID(0,\sigma^{2})$, 假设$y_{0}$是有限方差的随机变量.
可以将以上回归方程写为: $\Delta y_{t}=\underbrace{(\phi-1)}_{=\gamma}y_{t-1}+\epsilon_{t}$.
作检验假设: $\begin{aligned}&H_{0}:\phi=1(\mathrm{i.e.}\gamma=0)\Longleftrightarrow y_{t}\sim I(1)\\&H_{1}:|\phi|<1(\mathrm{i.e.}-2<\gamma<0)\Longleftrightarrow y_{t}\sim I(0).\end{aligned}$.
DF两人给出了两个t-statistics来检验$\gamma$是否显著:
-
$T\hat{\gamma}=T\frac{\sum_{t=1}^T\Delta y_ty_{t-1}}{\sum_{t=1}^Ty_{t-1}^2}=\frac{T^{-1}\sum_{t=1}^T\Delta y_ty_{t-1}}{T^{-2}\sum_{t=1}^Ty_{t-1}^2}$, 即T乘上$\hat \gamma$. 这个能直接用作standard t statistic, 和t分布来比较就行了
-
$t_{DF}=\frac{\hat{\gamma}}{se\left(\hat{\gamma}\right)}\quad;\quad se\left(\hat{\gamma}\right)=\sqrt{\frac{\hat{\sigma}^{2}}{\sum_{t=1}^{T}y_{t-1}^{2}}},\ \ \hat{\sigma}^2=\frac{\sum_{t=1}^T\left(\Delta y_t-\hat{\gamma}y_{t-1}\right)^2}{T-1}.$, 这个是标准的t-statistics, 但是鉴于如果是nonstationary的话, 无法使用t分布来检验, 所以需要将它与另外一个分布(limiting distribution)来进行比对.
这个分布长什么样在此先跳过, 我们先考虑DF test的critical value:
rt: 总体来说df的关键值比正态分布的要小. 所以如果使用正态分布的关键值来进行t test会over rejection.
Unit Root Asymptotic Distribution Theory
考虑AR(1): $y_{t}=\phi_{1}y_{t-1}+u_{t}$. 令误差项服从正态分布, 且$y_{0}=0$. 有: $H_{0}:\phi_{1}=1$
OLS, 有: $\hat{\phi}_{1}=\frac{\sum_{t=1}^Ty_ty_{t-1}}{\sum_{t=1}^Ty_{t-1}^2}=\frac{\sum_{t=1}^T\left(\phi y_{t-1}+u_t\right)y_{t-1}}{\sum_{t=1}^Ty_{t-1}^2}=\frac{\phi_{1}\sum y_{t-1}^{2}+\sum u_{t}y_{t-1}}{\sum y_{t-1}^{2}}=\phi_{1}+\frac{\sum u_{t}y_{t-1}}{\sum y_{t-1}^{2}}$. 可得: $(\hat{\phi}-{\phi})=\frac{\sum_{t=1}^{T}u_{t}y_{t-1}}{\sum_{t=1}^{T}y_{t-1}^{2}}$.
假设y平稳:
对于分母, 因为: $\begin{cases}E[y_{0}]=E[y_{t-1}]=0\\V[y_{t-1}]=V[y_{t}]=\frac{\sigma^{2}}{1-\phi_{1}^{2}}\end{cases}\to E[y_{t-1}^{2}]=\frac{\sigma^{2}}{1-\phi_{1}^{2}}, V[y_{t-1}^{2}]=E[y_{t-1}-E[y_{t-1}]]^{2}$
$=E[y_{t-1}^{2}-2\frac{\sigma^{2}}{1-\phi_{1}^{2}}E[y_{t-1}^{2}]+(\frac{\sigma^{2}}{1-\phi_{1}^{2}})^{2} =E[y_{t-1}^{4}]-(\frac{\sigma^{2}}{1-\phi_{1}^{2}})^{2}$
额外假设: $y_{t}^{4}$是一个有限的数. $\to V[y_{t-1}^{2}]$有限, 则可以使用大数定律.
此时有: $y_{t-1}^{2}\sim IID(\frac{\sigma^{2}}{1-\phi_{1}^{2}},V[y_{t-1}^{2}])\to \frac{1}{T}\sum_{t=1}^{1}y_{t-1}^{2}\xrightarrow{p}E(y_{t-1}^{2})=\frac{\sigma^{2}}{1-\phi^{2}}$, 可得分母趋近于一个常数.
对于分子: 从AR(1)可得: $y_{t-1}$实际上是一个关于$(u_{t-1},u_{t-2}..u_{0})$的函数, 而误差项u之间是独立的. 所以$u_{t}$和$y_{t-1}$互相独立.
可得: $E(u_{t}y_{t-1})=E(u_{t})E(y_{t-1})=0$. 同理, $V[u_{t},y_{t-1}]= E[u_{t}y_{t-1}-E[\cdot]]^{2}=E[u_{t}y_{t-1}]^{2}=E(u_{t}^{2})E(y_{t}^{2})=\sigma^2\frac{\sigma^{2}}{1-{\phi_{1}}^{2}}=\frac{\sigma^{4}}{1-{\phi_{1}}^{2}}$.
由sluskey theorem得: $\sqrt{T}(\widehat{\phi}-\phi)=\frac{\sqrt{T}\frac{1}{T}\sum u_{t}y_{t-1}}{\frac{1}{T}\sum y_{t-1}^{2}}\xrightarrow{d} \frac{N(0,\frac{\sigma^{4}}{1-\phi_{1}^{2}})}{\frac{\sigma^{2}}{1-\phi_{1}^{2}}}=N(0,1-\phi_{1}^{2})$.
这使得OLS estimator 可使用t test 或z test来检验显著性.
另外: $(\hat \phi-\phi)\xrightarrow{d}\frac{N(0,1-\phi_{1}^{2})}{\sqrt{T}}=N(0,\frac{1-\phi_{1}^{2}}{T})$, 可知样本越大, 该项的方差越小, 得: $\hat{\phi}-\phi\xrightarrow{p}0,\hat{\phi}\xrightarrow{p}\phi $. 得: OLS estimator is consistent.
假设y有单位根:
此时$\phi=1$, 有: $y_t=u_t+u_{t-1}+...+u_1=\sum_{t=1}^{T}u_{t}$. 因标准误之间独立, 得: $y_t\sim N\begin{pmatrix}0,\sigma^2t\end{pmatrix}.$
对于: $(\hat{\phi}-{\phi})=\frac{\sum_{t=1}^{T}u_{t}y_{t-1}}{\sum_{t=1}^{T}y_{t-1}^{2}}$,
分子有: $\begin{aligned}\sum_{t=1}^{T}u_{t}y_{t-1}=\sum_{t=1}^{T}(y_{t}-y_{t-1})y_{t-1}&=\sum_{t=1}^{T}y_{t}y_{t-1}-y_{t-1}^{2}\\&=\sum_{t=1}^{T}y_{t}^{2}-y_{t-1}^{2}-y_{t}u_{t}\\&=\sum_{t=1}^{T}y_{t}^{2}-y_{t-1}^{2}-y_{t-1}u_{t}-u_{t}^{2}\\&=\frac{1}{2}\sum_{t=1}^{T}y_{t}^{2}-y_{t-1}^{2}-u_{t}^{2}\end{aligned}\to = \frac{1}{2}(y_{T}^{2}-y_{0}^{2}-\sum_{t=1}^{T}u_{t}^{2})=\frac{1}{2}(y_{T}^{2}-\sum_{t=1}^{T}u_{t}^{2})$.
$\begin{cases}E[u_{t}^{2}]=\sigma^{2}\\\\V[u_{t}^{2}]=E[u_{t}^{2}-\sigma^{2}]^{2}=\underbrace{E[u_{t}^{4}]}_{\mathrm{assume~finite}}-\sigma^{4}\end{cases}\xrightarrow{LLN}\left(\frac{1}{T}\sum_{t=1}^{T}u_{t}^{2}\xrightarrow{P}E[u_{t}^{2}]=\sigma^{2}\right)\to \left(\frac{1}{T\sigma^{2}}\sum_{t=1}^{T}u_{t}^{2}\xrightarrow{P}1\right)$.
另外, $\frac{y_{T}}{\sqrt{\sigma^{2}T}}\sim N(0,1)\rightarrow(\frac{y_{T}}{\sqrt{\sigma^{2}T}})^{2}\sim X^{2}(1)$.
$\to \frac{1}{T\sigma^{2}}\sum_{t=1}^{T}y_{t-1}u_{t}\xrightarrow{d}\frac{1}{2}(X^{2}(1)-1)$.
其分母有: $y_{t-1}\sim N(0,\sigma^{2}(t-1))\to E[y_{t-1}^{2}]=\sigma^{2}(t-1)$.
可知: $E\left[\sum_{t=1}^Ty_{t-1}^2\right]=\sum_{t=1}^TE\left[y_{t-1}^2\right]=\sigma^2\sum_{t=1}^T\left(t-1\right)=\sigma^2\frac{T\left(T-1\right)}{2}$. 当$T\to \infty$的时候, 其期望也是无穷. 因此为了使期望趋近于某有限常数, 需要将其除以$T^{2}$.
因为分子需要除以T, 分母需要除以$T^{2}$, 使得分子分母都趋近于某常数, 所以我们generally需要将$\frac{\sum_{t=1}^{T}u_{t}y_{t-1}}{\sum_{t=1}^{T}y_{t-1}^{2}}$乘上T, T就是convergence rate: $T(\hat{\phi}-\phi)\xrightarrow{d}non-standard~dist\to (\hat{\phi}-\phi)\xrightarrow{d}1/T\cdot non-standard~dist$. 因为趋近的分布中有T作为除数, 所以可得$\hat \phi$是super consistent (faster than usual)的.
Brownian Motion
这个概念就是为了解决上面说的non-standard distribution的.
Brownian Motion就是将离散的时间通过微元变得连续. 即: 将单位为1的时间段分成无限个小时间段,将该1单位的时间段上的误差项$u_{t}\sim N(0,\sigma^{2})$拆分成无穷多个小的误差项: $u_{t}=\sum_{i=1}^{S\to\infty}e_{t,i}\sim N(0,\sigma^{2}/S)$. 因为不方便处理无穷, 所以将时间map到$[0,1]$的区间内.
Def: 一个标准的Brownian motion $W(.)$为在连续时间$t\in[0,1]$上的随机过程, 满足:
- $W(0)=0$
- for $0\leq t_{1}<t_{2}<...<t_{k}\leq1$, $\left[W\left(t_2\right)-W\left(t_1\right)\right],...,\left[W\left(t_k\right)-W\left(t_{k-1}\right)\right]$为一个每一项互项独立的正态分布序列, 其中$[W\left(s\right)-W\left(t\right)]\sim N\left(0,s-t\right)$.
- $\forall t$, $W(t)$在t上连续的概率为1.
The Functional Central Limit Theorem (FCLT)
suppose $u_{t}\sim IID(0,\sigma^{2}),t\in [1,T]$. 其均值为$\overline{u}=T^{-1}\sum_{t=1}^{T}u_{t}\to T^{\frac{1}{2}}\overline{u}=T^{-\frac{1}{2}}\sum_{t=1}^{T}u_{t}$. 满足unbiased.
取sample的一半: $\overline{u}_{[\frac{T}{2}]}=\frac{1}{[\frac{T}{2}]}\sum_{t=1}^{[\frac{T}{2}]}u_{t}$, $[\frac{T}{2}]$是$\frac{T}{2}$的mod. 此时仍然有: $\left\lfloor T/2\right\rfloor^{1/2}\bar{u}_{\lfloor T/2\rfloor}\stackrel{d}{\to}N\left(0,\sigma^2\right)$. 注意一下: 这个一半的均值和sample剩下的部分数据的均值是互相独立的.
则可知: 任意将sample分成$\frac{1}{r}$份, for $r\in(0,1)$, 有: $X_T\left(r\right)=\frac{1}{T}\sum_{t=1}^{\lfloor Tr\rfloor}u_t.$
有: $X_{T}\left(r\right)=\left\{\begin{array}{lll}0&\mathrm{when}&0\leq r<1/T\\u_{1}/T&\mathrm{when}&1/T\leq r<2/T\\ (u_{1}+u_{2})/T&\mathrm{when}&2/T\leq r<3/T\\:&:&\vdots\\\left(\sum_{t=1}^{T}u_{t}\right)/T&\mathrm{when}&r=1\end{array}\right.$. 这是一个分段函数, r一般只取每段的左边界.
我们能得到: $T^{1/2}X_{T}\left(r\right)=\frac{1}{\sqrt{T}}\sum_{t=1}^{\left\lfloor Tr\right\rfloor}u_{t}=\left(\frac{\left\lfloor Tr\right\rfloor}{T}\right)^{1/2}\left(\frac{1}{\left\lfloor Tr\right\rfloor}\right)^{1/2}\sum_{t=1}^{\left\lfloor Tr\right\rfloor}u_{t}$.
有: $\begin{cases}\frac{[T_{r}]}{T}\xrightarrow{T\to\infty}\frac{T_{r}}{T}=r\\\\\left(\frac{1}{[T_{r}]}\right)^{\frac{1}{2}}\sum_{t=1}^{[T_{r}]}u_{t}\xrightarrow{CLT}N(0,\sigma^{2})\end{cases}$ $\longrightarrow \bigg(T^{\frac{1}{2}}X_{T}(r)\rightarrow N(0,\sigma^{2}r)\bigg)\longrightarrow \bigg(\frac{T^{1/2}}{\sigma}X_{T}\left(r\right)\stackrel{d}{\to}N\left(0,r\right)\bigg)\longrightarrow \bigg(\frac{T^{1/2}}{\sigma}\left(X_{T}\left(r_{2}\right)-X_{T}\left(r_{1}\right)\right)\stackrel{d}{\to}N\left(0,r_{2}-r_{1}\right)\bigg)$.
同时满足, 任何不重合的$(r_{i},r_{j})$, $X_{T}$之间的组合都互相独立.
FCLT: $\frac{T^{1/2}}{\sigma}X_{T}\left(.\right)\stackrel{d}{\to}W\left(.\right)$, under the the assumption that $u_{t}\sim IID$. 实际上这个假设过强了, 该结论在更弱的假设下仍然能够成立.
注意一下: 当r=1的时候, 我们实际上是取了全体的sample, 因此可得CLT就是FCLT的一个特殊情况.
Continuous Mapping Theorem
令$S(.)$成为一个连续时间随机过程, 其时间跨度记为r, 有: $r\in [0,1]$. 对于一个连续函数的序列 $\ {S_{T}(r)\ }$, 如果有
$S_{T}\left(.\right)\stackrel{d}{\rightarrow}S\left(.\right)$, 则对于任意的单调函数, 满足 $g\left(S_{T}\left(.\right)\right)\overset{d}{\rightarrow}g\left(S\left(.\right)\right)$.
常见的情况就是CMT被用作$\int_{D}S_{T}\rightarrow\int_{D}S$, 平方之间的趋近和线性变换之间的趋近.
则对于上一节中的结论, 有:
- $T^{1/2}X_{T}\left(r\right)=\sigma\frac{T^{1/2}}{\sigma}X_{T}\left(r\right)\xrightarrow{d}\sigma W\left(r\right)\sim N\left(0,\sigma^{2}r\right)$.
- $S_T\left(r\right)=\left[T^{1/2}X_T\left(r\right)\right]^2\overset{d}{\operatorname*{\to}}\sigma^{2}W\left(r\right)^{2}$.
Application to Unit Root Process
考虑random walk, 即 $y_t=y_{t-1}+u_t,\quad u_t\sim IID\left(0,\sigma^2\right)\quad\&\quad y_0=0$. 有: $y_t=\sum_{j=1}^tu_j$.
对其作分段随机函数, 得: $$X_T \left (r\right) = \left\{\begin{array}{lll}0&\text{when}&0\leq r<1/T\\y_1/T&\text{when}&1/T\leq r<2/T\\y_2/T&\text{when}&2/T\leq r<3/T\\\vdots&\vdots&\vdots\\y_T/T&\text{when}&r=1\end{array} \right.$$
对函数求积分, 得: $\int_0^1X_T\left(r\right)dr=\frac{y_1}{T^2}+\frac{y_2}{T^2}+...+\frac{y_{T-1}}{T^2}=T^{-2}\sum_{t=1}^Ty_{t-1}$.
$\to \int_0^1T^{1/2}X_T\left(r\right)dr=T^{-3/2}\sum_{t=1}^Ty_{t-1}$. (乘上convergence rate)
从FCLT得 $T^{1/2}X_{T}\left(r\right)\stackrel{d}{\to}\sigma W\left(r\right)$, 从CMT可得: $\int_0^1T^{1/2}X_T\left(r\right)dr\xrightarrow{d}\sigma\int_0^1W\left(r\right)dr$.
即 $T^{-3/2}\sum_{t=1}^{T}y_{t-1}\stackrel{d}{\to}\sigma\int_{0}^{1}W\left(r\right)dr$. (这一项是DF test中的一部分), 其中$\int_0^1W\left(r\right)dr\sim N\left(0,1/3\right)$.(暂时不证明)
结论1: 如果$\bar y$非平稳, 则其convergence rate为$T^{-\frac{1}{2}}$. ($T^{-\frac{3}{2}}\sum_{t=1}^{T}y_{t-1}=T^{-\frac{1}{2}}\overline{y}$). 而平稳序列下的$\bar y$的convergence rate为$T^{\frac{1}{2}}$.
对函数求平方, 得: $S_T\left(r\right)=T\left[X_T\left(r\right)\right]^2$, 有: $S_{T}\left(r\right)=\left\{\begin{array}{lll}0&\text{when}&0\leq r<1/T\\y_{1}^{2}/T&\text{when}&1/T\leq r<2/T\\y_{2}^{2}/T&\text{when}&2/T\leq r<3/T\\\vdots&\vdots&\vdots\\y_{T}^{2}/T&\text{when}&r=1\end{array}\right.$.
对其求积分, 得: $\int_0^1S_T\left(r\right)dr=\frac{y_1^2}{T^2}+\frac{y_2^2}{T^2}+...+\frac{y_{T-1}^2}{T^2}=T^{-2}\sum_{t=1}^Ty_{t-1}^2$.
用FCLT: $S_{T}\left(.\right)\stackrel{d}{\rightarrow}\sigma^{2}\left[W\left(.\right)\right]^{2}$.
用CMT: $T^{-2}\sum_{t=1}^{T}y_{t-1}^{2}\stackrel{d}{\to}\sigma^{2}\int_{0}^{1}W\left(r\right)^{2}dr$.
回到$(\hat{\phi}-{\phi})=\frac{\sum_{t=1}^{T}u_{t}y_{t-1}}{\sum_{t=1}^{T}y_{t-1}^{2}}=\frac{\sum_{t=1}^{T}u_{t}y_{t-1}/T}{\sum_{t=1}^{T}y_{t-1}^{2}/T}$, 对于分子, 有: $T^{-1}\sum_{t=1}^{T}y_{t-1}u_{t}=\frac{1}{2}\frac{1}{T}\left[y_{T}^{2}-\sum_{t=1}^{T}u_{t}^{2}\right]=\frac{1}{2}S_{T}\left(1\right)-\frac{1}{2}\frac{1}{T}\sum_{t=1}^{T}u_{t}^{2}$, (第一个等号见前文)
$\frac{1}{T}\sum_{t=1}^Tu_t^2=E(u_{t}^{2})\stackrel{p}{\rightarrow}\sigma^{2} $. 同时 $S_{T}\left(1\right)\xrightarrow{d}\sigma^{2}\left[W\left(1\right)\right]^{2}$, 可得: $\left(\sigma^2T\right)^{-1}\sum_{t=1}^Ty_{t-1}u_t\to\frac{1}{2}\left[W\left(1\right)^2-1\right]\sim \frac{1}{2}\begin{bmatrix}X\left(1\right)^2-1\end{bmatrix}$. 最后一个$\sim$是因为$W(1)\sim N(0,1)$和之前的分析一致.
小总结一下: 目前得到的结论有四: 对于random walk $y_{t}$, 且$y_{0}=0$, $u_{t}\sim IID(0,\sigma^{2})$.
$$\begin{cases}
\mathbf{a}):T^{-1/2}\sum_{t=1}^{T}u_{t}\xrightarrow{d}\sigma W\left(1\right)\sim N\left(0,\sigma^{2}\right) \\
\mathbf{b}):T^{-1}\sum\limits_{t=1}^{T}y_{t-1}u_{t}\stackrel{d}{\to}\frac{\sigma^{2}}{2}\left[W\left(1\right)^{2}-1\right]\sim\frac{\sigma^{2}}{2}\left[\chi_{1}^{2}-1\right] \\
\mathbf{c}):T^{-3/2}\sum_{t=1}^Ty_{t-1}\overset{d}{\to}\sigma\int_0^1W\left(r\right)dr\sim N\left(0,\frac{\sigma^2}{3}\right) \\
\mathbf{d}):T^{-2}\sum_{t=1}^{T}y_{t-1}^{2}\to\sigma^{2}\int_{0}^{1}W\left(r\right)^{2}dr.
\end{cases}$$.
这四个分布的Brownian motion都是同一个 $W(r)$.
DF Test Distribution
因为$H_{0}:\phi =0$, 所以我们将其带入test statistics, 得:
$T\left(\hat{\phi}-1\right)=\frac{T^{-1}\sum_{t=1}^Ty_{t-1}u_t}{T^{-2}\sum_{t=1}^Ty_{t-1}^2}$.
由b) 得: $T^{-1}\sum_{t=1}^Ty_{t-1}u_t\stackrel{d}{\to}\frac{\sigma^2}{2}\left[W\left(1\right)^2-1\right]$.
由d) 得: $T^{-2}\sum_{t=1}^{T}y_{t-1}^{2}\stackrel{d}{\to}\sigma^{2}\int_{0}^{1}W\left(r\right)^{2}dr$.
可得: $T\left(\hat{\phi}-1\right)\overset{d}{\to}\frac{\frac{1}{2}\left[W\left(1\right)^{2}-1\right]}{\int_{0}^{1}W\left(r\right)^{2}dr}=\frac{\int_0^1W\left(r\right)dW(r)}{\int_0^1W\left(r\right)^2dr}$.
在此列出其critical value:
同时, 有: $\left(\hat{\phi}-1\right)\overset{d}{\to}\frac{\frac{1}{2}\left[W\left(1\right)^{2}-1\right]}{\int_{0}^{1}W\left(r\right)^{2}dr}/T$, 当样本数量接近于无穷的时候, 估计值和实际值之间的偏差接近于0. 可知该估计值是super consistent的, 即$\hat \phi$ 收敛于1的速度快于平稳序列下的估计值收敛于真实值的速度.
对于另外一个statistics, 有: $t_{DF}=\frac{\hat{\phi}-1}{\left(\hat{\sigma}^2/\sum_{t=1}^Ty_{t-1}^2\right)^{1/2}}$, $\hat{\sigma}^2=T^{-1}\sum_{t=1}^T\left(y_t-\hat{\phi}y_{t-1}\right)^2$.
进一步展开, 有: $\begin{aligned}t_{DF}&=\quad T\left(\hat{\phi}-1\right)\left[\hat{\sigma}^{-2}T^{-2}\sum_{t=1}^{T}y_{t-1}^{2}\right]^{1/2}=\frac{T^{-1}\sum_{t=1}^{T}y_{t-1}u_{t}}{T^{-2}\sum_{t=1}^{T}y_{t-1}^{2}}\left[\hat{\sigma}^{-2}T^{-2}\sum_{t=1}^{T}y_{t-1}^{2}\right]^{1/2}\\&=\quad\frac{T^{-1}\sum_{t=1}^{T}y_{t-1}u_{t}}{\hat{\sigma}\left(T^{-2}\sum_{t=1}^{T}y_{t-1}^{2}\right)^{1/2}}\overset{d}{\operatorname*{\to}}\frac{\frac{\sigma^{2}}{2}\left[W\left(1\right)^{2}-1\right]}{\sigma\left(\sigma^{2}\int_{0}^{1}W\left(r\right)^{2}dr\right)^{1/2}}\equiv\frac{\int_{0}^{1}W\left(r\right)dW\left(r\right)}{\left(\int_{0}^{1}W\left(r\right)^{2}dr\right)^{1/2}},\end{aligned}$.
其中$\hat{\sigma}^2\xrightarrow{p}\sigma^2$.
两个不同的test statistics 服从不同的分布, 爱用哪个就用哪个吧.
consistency under alternative hypothesis
如果$|\phi|<1$, 则$\hat{\phi}-1\stackrel{p}{\to}\phi-1<0$. 则$T\left(\hat{\phi}-1\right)\to-\infty $, 此时在任何significant level下都有: $\mathrm{Pr}\left[T\left(\hat{\phi}-1\right)<cv\right]\to1\mathrm{~as~}T\to\infty $.
Extension: non-zero $y_{0}$
假设初始值非零. 这意味着初始值可以服从某个分布. 我们舍弃初始值为0的假设, 增加假设: $y_{0}$和$\ {u_{i\ge 1}\ }$无关.
对于: $T\left(\hat{\phi}-1\right)=\frac{T^{-1}\sum_{t=1}^Ty_{t-1}u_t}{T^{-2}\sum_{t=1}^Ty_{t-1}^2}=\frac{T^{-1}\left(y_0u_1+y_1u_2+..+y_{T-1}u_T\right)}{T^{-2}\left(y_0^2+y_1^2+..+y_{T-1}^2\right)}$.
分母为: $T^{-2}\sum\limits_{t=1}^Ty_{t-1}^2=T^{-2}\sum\limits_{t=1}^T\left(\sum\limits_{j=1}^{t-1}u_j+y_0\right)^2=T^{-2}\sum\limits_{t=1}^T\left(S_{t-1}^2+2S_{t-1}y_0+y_0^2\right)$. for $S_{t-1}=\sum_{j=1}^{t-1}u_{j}$.
用之前的$S_{T}(r)$和$X_{T}(r)$带入, 可得: $T^{-2}\sum_{t=1}^Ty_{t-1}^2=\int_0^1S_T\left(r\right)dr+2y_0T^{-1/2}\int_0^1T^{1/2}X_T(r)dr+\frac{y_0^2}{T}$.
因为$\int_0^1T^{1/2}X_T(r)dr\xrightarrow{d}\sigma\int_0^1W(r)dr$, 所以$T^{-2}\sum_{t=1}^Ty_{t-1}^2\stackrel{d}{\to}\sigma^2\int_0^1W(r)^2dr$. (因为包含T的项都在$T\to \infty$的时候趋近于0了)
分子为: $T^{-1}\sum\limits_{t=1}^Ty_{t-1}u_t=T^{-1}\sum\limits_{t=1}^T\left(S_{t-1}+y_0\right)u_t=T^{-1}\sum\limits_{t=1}^TS_{t-1}u_t+y_0T^{-1/2}\frac{\sum\limits_{t=1}^Tu_t}{\sqrt{T}}$.
注意到第二项为 $\frac{\sum_{t=1}^Tu_t}{\sqrt{T}}\stackrel{d}{\to}N\left(0,\sigma^2\right)$, 因此它可以被$T^{-1/2}$消灭. 所以 $T^{-1}\sum_{t=1}^Ty_{t-1}u_t\stackrel{d}{\to}\frac{1}{2}\sigma^2\left(W\left(1\right)^2-1\right)\equiv\sigma^2\int_0^1W(r)dW(r)$.
可得结论2: 初始值如何无影响, 对df test的两个test statistics都如此.
Augmented Dickey-Fuller Tests
我们舍弃 $u_{t}\sim IID(0,\sigma^{2})$, 并假设: $\begin{aligned}&y_{t}=\quad\phi y_{t-1}+u_t\\&u_{t}=\quad\sum_{i=1}^p\phi_iu_{t-i}+e_t+\sum_{j=1}^q\theta_je_{t-j}\end{aligned}$. 其中$e_t\sim IID\left(0,\sigma_e^2\right),E\left[\left(e_t^2-\sigma_e^2\right)^2\right]=\kappa_4<\infty$. (finite forth moment). 这相当于说$u_{t}$是ARMA(p,q), 满足stationary 和 invertible.
改写$y_{t}$: $y_t=\phi y_{t-1}+\sum_{i=1}^\infty d_iu_{t-i}+e_t$. $\sum_{i=1}^\infty d_iu_{t-i}$是$AR(\infty)$, d就是这个无穷AR的系数. 这是从ARMA转化过来的AR, 因此只要q大于0, 其阶数就是无限.
null hypothesis为$\phi=1$. 假设为真, 那么$y_{t}$就是ARIMA(p,1,q). 同时 $u_t=y_t-y_{t-1}=\Delta y_t$. 因为我们不知道p,q, 同时$u_{t}$也观测不到, 所以用$\Delta y_{t-1}$来代替$u_{t-1}$. 得:
$$y_t=\phi y_{t-1}+\sum_{i=1}^kd_i\Delta y_{t-i}+e_t$$
这就是Augmented DF regression.
注意一下, k是部分regressor的数量. 我们不可能设置无限个regressor, 所以假设:
- k可以随着T的增长而增长, 即k可以趋近于无穷.
- k的无穷小于T的无穷, 即T的极小微元 (但并不是无穷小)仍比k大: $\frac{k}{T^{1/\epsilon}}\to 0$.
对其OLS回归, 可得convergence rate为$T^{1/2}$.
t test结果和之前是一样的, 即: $t_{ADF}\stackrel{d}{\to}\frac{\int_0^1W\left(r\right)dW\left(r\right)}{\left(\int_0^1W\left(r\right)^2dr\right)^{1/2}}$.
然而另一个不一样: $T\left(\hat{\phi}-1\right)^{*}=\frac{T\left(\hat{\phi}-1\right)}{\left(1-\sum_{i=1}^{k}\hat{d}_{i}\right)}\xrightarrow{d}\frac{\int_{0}^{1}W\left(r\right)dW(r)}{\int_{0}^{1}W\left(r\right)^{2}dr}$.
我们假设的是T接近于无穷, 但现实中不可能. 所以k也不可能是无穷, 因此我们在用ADF test的时候要选择k. k的选择遵守以下三个准则:
- Information criteria, 即AIC和BIC
- Deterministic Rules, 这是为了让k小于$T^{1/3}$. 一般是$k=\left\lfloor4\left(T/100\right)^{1/4}\right\rfloor $或者 $k=\left\lfloor12\left(T/100\right)^{1/4}\right\rfloor $.
- Data based Lag Selection.
需要注意的是, 我们选定了k后, 我们自动丢失了k+1个observations, 因为我们要求对每一个$y_{t}$, $y_{t-k}$存在. 少了observations会导致估计不准确, 所以慎重选择k.
nbcs