设总体$X$的分布函数为$F(x)$, 其对应的密度函数为$f(x)$, $X_{1},X_{2},\cdots, X_{n}$是抽自该总体的END样本, 而$F_{n}(x)=\frac{1}{n}\sum\limits_{i=1}^{n}I(X_{i}<x)$是样本$X_{1},X_{2},\cdots, X_{n}$的经验分布函数.那么, 显然有$X_{i} (i=1,2,\cdots, n)$与$X$是同分布的, 且$X_{1},X_{2},\cdots, X_{n}$是END随机变量.设$\{k_{n};n\geq1\}$为给定的正整数列, 满足$1\leq k_{n}<n$.令$a_{n}(x)$为最小的正数$a$使得$[x-a,x+a]$中至少包含$X_{1},X_{2},\cdots, X_{n}$中的$k_{n}$个, 则$X$的密度函数$f(x)$的最近邻密度估计为
概率密度估计和非参数非线性回归是非参数估计中两大问题.而最近邻密度估计 (NN-估计) 是由Loftsgarden等[1]于1965年提出的, 它是一种比较常用的非参数概率密度估计的方法.由于它的广泛应用, 此后很多著名学者都研究过它的收敛性质.在独立样本情形, 文献[1-5]等对最近邻密度估计$f_{n}(x)$的强、弱相合性和一致强、弱相合性以及收敛速度等做了比较深入的研究, 也都得出了比较好的结论.在相依样本情形, 柴根象[6]对$\varphi$混合样本讨论了$f_{n}(x)$的相合性和一致强相合性及其收敛速度; 杨善朝[7]就NA样本下最近邻密度估计的相合性及收敛速度做了深入的研究; 而文献[8-11]则将最近邻密度估计的相合性以及收敛速度推广到了ND序列.
为了得出本文的主要结论, 下面我们先给出END序列的定义:
定义 [12] 称随机变量$\{X_{n};n\geq1\}$是END(Extended Negatively Dependent)的, 若存在常数$M>0$, 使得
对每个$n=1,2,\cdots$和所有的$x_{1},x_{2},\cdots,x_{n} \in R$都成立.
END序列的概念是刘[12-13]在研究相依重尾随机变量的偏差中首先提出来的.文献[12]中例4.1表明, END序列不仅反应了负相依结构, 而且在某种程度上体现了正相依结构, 它是一种非常广泛的相依随机变量序列.比如, 当定义中的$M=1$时, END序列就是ND序列.显然, END序列包含了独立序列, 而文献[14]举例说明了NA序列一定是ND序列, 但ND序列不一定是NA序列, 而ND序列又是END序列, 反之则不成立.这说明了END序列是比独立序列、NA序列和ND序列更弱的、更广泛的一种随机变量序列.因此, 对END序列的研究在理论和实际应用中都是非常有意义的, 而将独立序列或NA序列的一些性质推广到END序列也是很有必要的.沈[15]研究了END序列的概率不等式及其应用, 而对于END样本下的最近邻密度的估计问题, 则还未见文献报道.基于此, 本文主要研究END样本最近邻密度估计的强相合速度问题, 在更弱的条件下, 得到了与NA序列相同的结论, 从而推广了文献[7]的结果.
本文用“ $\ll$”表示通常的大“$O$”.
为了证明本文的主要结论, 本节建立一个END序列的Bernstein型不等式, 并给出一些相关的引理.
引理1 [12] 若随机变量$\{X_{n};n\geq1\}$是END的, 则
(1) $\{g_{i}(X_{i});i=1,2,\cdots\}$仍是END的, 其中$g_{i}(\cdot),i=1,2,\cdots$均为单调递增或单调递减的函数;
(2) 对任意的$n=1,2,\cdots$, 存在常数$M>0$, 使得
由引理1立即可得下面的引理2.
引理2 设随机变量$\{X_{n};n\geq1\}$是END序列, $t_{1},t_{2},\cdots,t_{n}$都是非正或者都是非负的实数, 对任意的$n=1,2,\cdots$, 存在常数$M>0$使得
特别的, 对任意的$t\in R$, 都有
引理3 (Bernstein不等式) 设随机变量$\{X_{n};n\geq1\}$是END序列, $EX_{i}=0, |X_{i}|\leq b_{i}$ a.s. $(i=1,2,\cdots,n), t>0$为实数, 且满足$ t\mathop {\max }\limits_{1 \le i \le n} {b_i} \le 1$, 则$\forall\varepsilon>0$, 有
证 因$ Y_{n}\triangleq\sum\limits_{k=0}^{n}\frac{(tX_{i})^{k}}{k!}\rightarrow e^{tX_{i}}, n\rightarrow\infty$, 由$|tX_{i}|\leq1$ a.s.得$|Y_{n}|\leq e$ a.s..所以由Lebesgue控制收敛定理得
由Markov不等式, 结合引理2, 对$\forall\varepsilon>0, t>0$, 对任意的$n=1,2,\cdots$, 存在常数$M>0$使得
同理, 以$-X_{i}$代替上式中的$X_{i}$得
故
证毕.
引理4 [16] (推广的Borel-Cantelli引理):
(ⅰ) 若$\sum\limits_{n=1}^{\infty}P(A_{n})<\infty$, 则$P(A_{n},\text{i.o.})=0$;
(ⅱ) 若$P(A_{k}A_{m})\leq P(A_{k})P(A_{m}), k\neq m$, 且$\sum\limits_{n=1}^{\infty}P(A_{n})=\infty$, 则$P(A_{n},\text{i.o.})=1$.
定理1 设随机变量$\{X_{n};n\geq1\}$是END序列, 存在正数列$\{q_{n};n\geq1\}$, 使得$k_{n}$和$q_{n}$满足
且$f(x)$在$R$上满足Lipschitz条件, $f(x)>0$, 则当$n\to\infty$时, 有
推论1 设随机变量$\{X_{n};n\geq1\}$是END序列, $f(x)$在$R$上满足Lipschitz条件, 且$f(x)>0$, 若取
容易验证$k_{n}$和$q_{n}$满足定理1的条件, 则当$n\to\infty$时, 有
注1 定理1在更弱的条件下, 获得了与NA序列下相同的结论.
注2 由推论1可知, $f_{n}(x)$的强相合收敛速度几乎为$n^{-1/4}$, 这一结论与NA序列下是相同的, 但是与独立情形的$n^{-1/3}$还有一些差距.
定理1的证明 $\forall\varepsilon>0,$有
当$f(x)\leq\varepsilon q_{n}$时, $P(f_{n}(x)<f(x)-\varepsilon q_{n})=0$, 故估计$P(f_{n}(x)<f(x)-\varepsilon q_{n})$时只需考虑$f(x)>\varepsilon q_{n}$的情况.令
则由$f_{n}(x)$的定义, 有
其中$F_{n}(\cdot)$表示样本的经验分布函数.
由微分中值定理, 存在$\theta_{1}\in (x-b_{n}(x),x+b_{n}(x))$和$\theta_{2}\in (x-c_{n}(x),x+c_{n}(x))$, 使
故由 (3.1) 式中的$B_{x}$和 (3.2) 式可得
由 (3.1) 式中的$C_{x}$和 (3.3) 式可得
从以上证明过程可以看出 (3.4) 和 (3.5) 式分别是 (3.1) 式中的$B_{x}$和$C_{x}$, 因此它们是成立的.由$f(x)$在$R$上满足Lipschitz条件和$f(x)>0$, 以及$q_{n}\to0, \frac{k_{n}}{nq_{n}}\to 0$知, 当$n\to\infty$时, 存在一个常数$L$, 使得
显然, 密度函数$f(x)$是有界的, 不妨记$M=\mathop {\sup }\limits_x f(x)<\infty,$结合 (3.6) 式, 有
由 (3.7) 式同理可得
令$\frac{\varepsilon}{8M}=u$, 由 (3.4) 和 (3.8) 式, 得
由 (3.5) 和 (3.9) 式, 得
由 (3.1)、(3.10) 和 (3.11) 式, 易得
令$X_{i}^{c}=I(X_{i}<x+b_{n}(x))-EI(X_{i}<x+b_{n}(x))$, 则由引理1知, $X_{1}^{c},X_{2}^{c}, \cdots,X_{n}^{c}$仍为END序列, 且$EX_{i}^{c}=0, |X_{i}^{c}|\leq2$.取$t=\frac{k_{n}q_{n}u}{2n}$, 则当$n\to\infty$时, 由条件$q_{n}\to0$以及$\frac{k_{n}}{nq_{n}}\to0$可知$ 2t=\frac{k_{n}q_{n}u}{n}\to0$, 故满足引理3的条件, 由引理1和条件$\frac{k_{n}q_{n}}{(n\text{log}n)^{1/2}}\to\infty$知
同理, 我们可以得到
于是, 由 (3.12)、(3.13) 和 (3.14) 式, 当$n$充分大时, 有
由引理4可知
此即
从而定理1得证.