变点问题起源于工业质量控制的领域, 在质量控制中非常重要的一点是如何快速检测出生产线上不合格产品比例的增加.在建模和数据挖掘中, 一个很常见的问题是, 如何根据现有的样本数据, 来判断我们感兴趣的一些量是否发生变化.这种问题在统计中我们称其为变点问题.关于变点问题的建模和分析始于Page 1954年发表在《Biometrika》上的文献[1], 文献主要考虑了利用分位数构造的简单检测方法去检验生产线上观察到数据的稳定性.在此之后, 关于变点问题的研究变得日益活跃, 各种研究文献也日益增多.而且随着学科的发展和深入, 变点问题在经济、金融学、生物医学、气候学、导航系统、图像处理、信号探测、计算机等很多领域都有广泛的应用背景.
很久以来大多数的变点检测的文献都是基于这样的背景:对于一组固定容量的历史数据集, 我们设计一些检验方法来判断这组数据内我们感兴趣的参数是否发生变化.这种检验即为我们常说的“事后检验”.在这种检验中, 样本是静态的, 这种数据我们称为是离线数据.离线数据分析主要在譬如历史文本分析, 图像分析等领域有应用.但是在更多的领域譬如质量控制, 医疗监测, 金融风险控制, 我们使用的都是在线数据, 也就是样本采取连续抽样的方式得到的.采取连续抽样的方式来得到样本进行检验, 这种检验称为“序贯检验”.序贯检验也是最近几年变点检测中的研究热点.具体来说, 在序贯检验中, 一般假定静止期的长度为$m$, 也就是在$m$个观察数据$X_1, X_2, \cdots, X_m$内不存在变点, 这$m$个观察数据也常称为历史数据.在考虑渐近性质的时候一般令$m\rightarrow \infty$.在原假设成立即认为没有变点存在的情况下$X_{m+1}, X_{m+2}, \cdots$的参数是相同的; 若备则假设成立即认为变点存在的情况下, 则存在一个整数$k^{*}\geq 0$, 使得$X_{m+1}, X_{m+2}, \cdots, X_{m+k^*}$的参数与历史数据相同, 而$X_{m+k^{*}+1}, X_{m+k^{*}+2}, \cdots$的参数不同, 这里$k^{*}$为未知变点.接下来要做的就是如何构造合适的检验统计量并制定合理的停止规则, 从而判断变点是否存在以及在认为变点存在的情况下推断出变点的位置, 使得变点从产生到被检测出需要的时间尽量的短, 并尽量消除误报, 即快速准确检测出变点.
文献[2]是较早提出并研究变点检测中序贯检验的代表性文献之一, 文中提出了两种检测方案, 一种利用波动差, 一种利用残差的累积和, 并拓宽了经典的不变原理得到所需要的收敛结果, 最后确定了临界值和停止规则, 找到最优停时, 并在模拟中得到了检验.文献[3]进一步推广了文献[2]的结果, 同样对于线性回归模型, 文献[3]提出了两类检验统计量, 第一类统计量是建立在回归系数$\beta$取最小二乘估计时残差的加权累积和, 第二类是利用回归系数构造的迭代残差的部分和得到的统计量.并制定了合适的检验规则, 使得在历史数据个数$m \rightarrow \infty$时错误预报率在约定的水平内, 且检验功效趋于$1$.学者Aue在变点的序贯检验中也做了一系列工作, 譬如率先开展研究停止时刻$\tau_n$的极限分布, 得到了文献[4], 后续工作有文献[5-7], 另外文献[8]得到了在对ARMA时间序列中结构变点进行序贯检验时, 停止时刻的极限分布.在近几年中, 也有把自助抽样技术引入到序贯模型中的变点检测问题中, 可参考文献[9, 10]和[11].
目前来说, 现有的文献主要研究单序列情形下的序贯模型, 那么, 如何在面板数据下研究序贯模型的变点, 这是一个崭新的问题.在本文中, 我们主要对这个问题进行研究.本文剩余部分的结构是这样的:第2节将描述模型并得到相关的理论结果, 即检验统计量的大样本性质; 第3节基于前面的理论结果提出面板数据下关于变点的渐近检验法, 并进行了Monte-Carlo模拟计算; 第4节给出了前面引理和定理的证明过程; 第5节对前面的结论进行了总结.
考虑面板均值变点模型
这里$\mu_{ij}$和$\varepsilon_{ij}$分别表示均值和面板扰动项. $\{\mu_{ij}, j=1, \, 2, \, \cdots, \, m+T_m\}_i$和$\{\varepsilon_{ij}, j=1, \, 2, \, \cdots, \, m+T_m\}_i$是相互独立的. $T_m$与$m$有关而且假定$T_m \leq \infty$, 序列$\{\varepsilon_{ij}\}$关于$i$相互独立, $\varepsilon_{ij} \sim (0, \sigma^2)$且在概率空间$(\Omega, \mathcal{F}, P)$上关于$j$是独立同分布的(i.i.d.).假定$0 < \sigma ^2 <\infty$而且对于某个$\upsilon >2$有$E|\varepsilon_{ij}|^\upsilon< \infty$.
假定对于每个$1 \leq i \leq N$, 已经观察到长度为$m$的历史数据, 它没有变点发生, 即对于$1\leq i \leq N$,
现在我们感兴趣的是接下来到来的数据里是否存在均值发生变化的共同变点, 即想检验原假设
和备则假设
这里$\sigma^2, \mu_{i0}, \delta_{i0}, k_m^0$的值均为未知.检测变点的方案是基于CUSUM型检测统计量$\Gamma(m, k, N)$和一个边界值, 这里
此处
其中$0 \leq \gamma <\frac{1}{2}$, 而且面板数据变点的检验统计量是
此外, 基于历史数据集$\{Y_{i1}, Y_{i2}, \cdots, Y_{im}\}_{i=1, 2, \cdots, N}$使用以下的方差估计
关于检验法则, 在
处停止并拒绝$H_0$. $\tau_{N}(m)$也被称为停时, 而且这里的$c$应该被选择成使我们能够控制错误预报率.即在原假设$H_0$下, 对于某个给定水平$0< \alpha < 1$,
在备则假设$H_1$下, 要求
引理 2.1 当$m, N \rightarrow \infty$时, $\hat{\sigma}_{m, N}^2$是$\sigma^2$的无偏且相合的估计.
定理 2.1 对于面板数据模型(2.1), 在原假设(i.e. (2.3)式)的假定下, 当$m, N \rightarrow \infty$时, 有
这里$\{W(t), 0 \leq t<\infty\}$是一个Wiener过程, $\gamma$见(2.6)式.
定理 2.2 对于面板数据模型(2.1), 如果$k_m^{0}+m=O(m)<m+T_m$, 则无论$N$是固定的还是$N \rightarrow \infty$, 在备则假设(i.e. (2.4)式)下, 都有当$m \rightarrow \infty$时,
根据定理2.1知, 在原假设成立即没有变点时, 若$m, N \rightarrow \infty$时,
的极限分布为
这里$\{W(t), 0 \leq t<\infty\}$是一个Wiener过程.因此可以通过此处已知的极限分布求出在给定的显著性水平下检验的临界值$c$, 然后利用这里的临界值$c$以及检验法则来确定是拒绝还是接受原假设, 并在原假设被拒绝, 即认为变点存在的情形下估计出变点的位置.这种方法我们称它为“渐近检验法”.
关于渐近检验法, 首先要计算检验的临界值.由于临界值只与$\gamma$有关, 所以可记作$c_{\gamma}$.为了计算经验检验水平, 考虑一个不带变点的模型, 并且计算
的次数, 这样就得到了这个次数和Monte-Carlo模拟次数之比.进一步, 为了计算经验检验功效, 考虑带一个变点的模型, 并进行$M$次Monte-Carlo模拟.在这$M$次模拟中, 计算出检验统计量
超过临界值$c_{\gamma}$的频率, 然后来计算经验检验功效.同时, $\frac{1}{\hat{\sigma}_{m, N}}\left|\Gamma(m, k, N) \right|$超过临界值$c_{\gamma}$的最早出现的那个$k$被认为是变点位置的估计值.
一般来说, 作为一个好的检验方法, 经验检验水平应该小于或等于给定的水平, 而且经验检验功效应该足够大.另外, 在变点后的停时应该足够的短才好.因此首先按照定理2.1来计算临界值$c_{\gamma}$.
第一步 模拟随机变量$U_{\gamma}=\sup\limits_{0 \leq t \leq 1 }\frac{\left|W(t)\right|}{t^\gamma}$$M$次, 这里$\{W(t), 0 \leq t<\infty\}$是一个Wiener过程.
第二步 在这$M$次模拟的基础上, 计算临界值$c_{\gamma}$, 使得$P[U_{\gamma}> c_{\gamma}]=\alpha$.
接下来, 在表 2-8中, 利用表 1中计算出的临界值$c_{\gamma}$, 分别计算了在$\gamma$, $T_m$, $N$, $m$取不同值, 变点$k_m^0$在不同位置(左端, 中间或右端)时, 渐近方法的经验检验水平, 检验功效以及停止时刻的各数字特征.具体来说:
从表 2可以看出, 当$m$固定时, 随着$\gamma$的增大, 经验检验水平越小.当$\gamma$固定时, 随着$m$的增大, 经验检验水平越小.从第一行和第二行的数据可以看到, 当$\gamma=0$和$0.25$时, 若历史数据集$m$较少, 得到的经验检验水平是会超过给定水平的.从而可以考虑在$[0, 1/2)$的范围内选取较大的$\gamma$, 来降低检验犯第一类错误的概率.而$m$越大, 即没有变点的历史数据越多, 得到的经验检验水平越小, 这与我们的直观感觉也是相符合的.
从表 3可以看出, $\gamma$的大小对经验检验水平影响很大, 类似表 2的表现.当$N$固定时, 随着$\gamma$的增大, 经验检验水平是降低的.在$\gamma=0$时, 经验检验水平甚至超过了给定的水平.同时注意到, $N$的大小对经验检验水平的影响不大, 不过比较而言, 中等大的$N$似乎能产生相对较低的经验检验水平.
通过模拟得到的列出的, 譬如表 4, 以及一些未列出的表格发现, 当变点发生在$m$个经验数据之后不久时, 则无论$m$和$N$值如何变化, 对于不同的$\alpha$和$\gamma$, 检验的功效都达到了$1$.
从表 5可以看出, 在变点$k_m^{0}$在$m$之后不久或者是更远一些, 检验的功效都是$1$.但是, 在变点靠近右端点时, 检验的功效会降低, 最高不超过$0.35$.在$k_m^{0}$固定时, 随着$\gamma$的增大, 功效是越来越低的.因此, 基于检验水平和检验功效的考虑, 应该选取不大不小的$\gamma$, 譬如取$\gamma=0.25$, 从而使两者能达到一种平衡.
从表 6看出, 如果以停止时刻$\tau_m$的中位数和均值作为判断标准的话, 在$\gamma$固定时, $m$值的变化对停止时刻的影响不大, 也就是说, 对变点$k_m^0$的估计值影响不大.但是, 在$m$值固定时, 随着$\gamma$的增大, 变点估计值与真实值的偏差是越来越大的.
从表 7可以看出, 在$N$固定时, 随着$\gamma$的增大, 变点值的估计偏差也是越来越大的, 不过这些偏差的相差量不会很大, 不超过$1$或者$2$.若$\gamma$固定, 当$N$从$50$变到$300$时, 变点估计值的精确度明显提高了, 在真实变点$k_m^{0}=25$时, 精确度提高了$4\sim5$个值.从这里可以看出, 增大面板数据的横截面个数$N$, 是可以明显提高变点估计的精确度的.
最后看下在$N$, $T_m$, $m$都固定, 而变点在不同位置时, 变点位置估计值的情况.在表 8中, 若$k_m^{0}=25$, 这种情形在前面已经探讨过.我们来看下$k_m^{0}=390$, 即变点处于右端点的情形.从表格中的数据可以发现, 对于这种变点最好以变点的中位数而不是均值作为变点的估计值, 因为中位数会离真实变点接近的多, 估计的偏差在$5$到$6$之间.同时$\gamma$的大小与估计量的精确度的关系类似表 7中的表现, 在$N$固定时, $\gamma$越大, 估计的偏差也会相对大一些.
通过以上表格的具体分析, 发现参数$\gamma$该如何选取是个很有趣的事情.从表 2看出, 较小或者中等大的$\gamma~(\gamma=0, 0.25)$且$m$取较小或中等大$(m=30, 100)$时, 数据表明经验检验水平与给定的水平接近.类似地, 在表 3中, $\gamma=0, N=100$同样可使得经验检验水平接近给定的真实值$\alpha$.我们再来看看参数$\gamma$与检验功效的关系. 表 4中的检验功效对应着变点$k_m^{0}$较早发生的情形, 这时, 无论$\gamma$在$[0, \frac{1}{2})$区间取何值, 对应的检验功效均为$1$.从表 5看, 在变点靠近右端点时, $\gamma$越小(其它参数都固定)时, 检验功效越大.同样, 对表 6-8的模拟结果进行分析可知, 越小的$\gamma$可使变点$k_m^0$的估计值与真实值的偏离程度越小.根据以上这些分析, 若从经验检验水平, 检验功效以及变点估计的精确度三方面来综合考虑, 我们倾向于选取$[0, \frac{1}{4})$区间中较小的$\gamma$, 从而达到最佳的检验和估计效果.
在这一节中, 将给出所有引理和定理的证明.
引理2.1的证明 注意到
那么
而且
经过计算可得
于是有
和
以及
由(4.2)-(4.6)式以及Chebyshev不等式, 得到
这里$N, m \rightarrow \infty$.并且令$\varepsilon=\frac{\sigma^2}{\sqrt{m}}$, 则当$m \rightarrow \infty$时,
$\sigma_{m, N}^2$的相合性得到了证明.
定理2.1的证明 借用文献[3]中的思想来证明定理2.1.对于面板数据模型(2.1), 在原假设(i.e. (2.3)式)下, 注意到
这里$g(m, k, N)=(Nm)^\frac{1}{2}\left.(1+\frac{k}{m})\right.\big(\frac{k}{m+k}\big)^{\gamma}$.
对每个$m$, 利用$\bigg\{\sum\limits_{i=1}^{N}\sum\limits_{j=m+1}^{m+k}\varepsilon_{ij}, 1 \leq k <\infty \bigg\}$和$\bigg\{\sum\limits_{i=1}^{N}\sum\limits_{l=1}^{m} \varepsilon_{il}\bigg\}$的独立性, 以及K-M-T估计(见文献[12, 13]), 可得到
此处$\{W_{1, m}(t)\}$和$\{W_{2, m}(t)\}$是相互独立的Wiener过程, 且$v>2$.从而推得
接下来, 利用
这里$g_1(m, k)=m^\frac{1}{2}\cdot\left.(1+\frac{k}{m})\right.\big(\frac{k}{m+k}\big)^{\gamma}$.
由文献[3]中的定理2.1的证明, 有
而且如前面所讨论的, 当$m, N \rightarrow \infty$时, 有$\hat{\sigma}_{m, N}^2-\sigma^2=o_{P}(1)$.
于是定理2.1得到了证明.
定理2.2的证明 令$k=\tilde{k}=k_m^0+m$, 则
由定理2.1以及Chebyshev不等式, 得到
由于${(m)^\frac{1}{2}\cdot \left(1+\frac{k_m^0+m}{m}\right)\big(\frac{k_m^0+m}{k_m^0+2m}\big)^{\gamma}}=O(m^\frac{1}{2})$, 因此无论$N$是固定的还是$N \rightarrow \infty$, 都有$\Gamma(m, \tilde{k}, N)\rightarrow \infty$, 从而完成了定理2.2的证明.
本文针对面板数据的序贯模型下的可能变点, 提出了CUSUM型检验统计量并制定了检验规则.随后得到了检验统计量的大样本性质, 并基于相关理论结果构造了一种检验方法:渐近检验法.接下来, 对渐近检验法进行了Monte-Carlo数值模拟, 在模拟中对检验方法的经验检验水平, 检验功效进行了考察, 并在变点存在的情况下估计出变点的位置.模拟显示渐近检验法是一种优良的检验估计方法.最后给出了理论结果的证明.