关于离散信源的若干强极限定理


扩展功能
	加入收藏夹

	复制引文信息

	加入引用管理器

	Email Alert

	RSS
本文作者相关文章
	简旭

	汪忠志

关于离散信源的若干强极限定理

简旭, 汪忠志

安徽工业大学数理科学与工程学院, 安徽马鞍山 243002

收稿日期：2013-11-15; 接收日期：2014-04-02

基金项目：国家自然科学基金 (11071104) 资助; 安徽省自然科学基金 (1308085QF113;1408085MA04) 资助; 安徽工业大学研究生创新基金 (2012089;2013090) 资助

作者简介：简旭 (1989-), 女, 湖北咸宁, 硕士, 主要研究方向:概率论及其应用

摘要：本文研究了离散信源广义熵定理以及随机条件概率的广义调和平均a.s.收敛性, 在证明中提出了将Markov不等式、Borel-Cantelli引理和随机条件矩母函数等工具应用于强极限定理的研究的一种途径.

关键词：Markov不等式 Borel-Cantelli引理广义调和平均条件矩母函数熵

SOME LIMIT THEOREMS FOR DISCRETE INFORMATION SOURCES

JIAN Xu, WANG Zhong-zhi

School of Mathematics Physics Science and Engineering, Anhui University of Technology, Maanshan 243002, China

Abstract: In this paper, we study the properties of generalized entropy and the conditional probability of random harmonic mean of discrete information sources.By using Markov's inequality, we put forward a new approach of studying strong limit theorem, Borel-Cantelli lemma and conditional moment generating function.

Key words: Markov's inequality Borel-Cantelli lemma generalized harmonic mean conditional moment generating function entropy

1 预备知识

Shannon-McMillan定理在信息论中占有十分重要地位, 它表明在一定的意义下信源的相对熵密度收敛于其熵率. Shannon在$1948$年的开创性论文^[1]中, 证明了平稳遍历有限马氏信源的相对熵密度按概率收敛于熵率, McMillan ^[2]和Breiman^[3]分别得到了有限字母集上的信源的$\mathcal{L}_{1}$收敛和a.s.收敛性. Chung ^[4]考虑了字母集为可列的情况, Moy ^[5] Perez ^[6]和Keiffer ^[7]获得了当信源连续取值且遍历时的$\mathcal{L}_{1}$收敛性. Barron ^[8]和Orey ^[9]证明了实值遍历过程的几乎处处收敛性, Algoet和Cover ^[10]利用简单的三明治方法证明一般的AEP.后来许多作者讨论了更为一般的结果 (见文[10]及其所引文献).

以往关于信源极限性质的研究大都对信源作了平稳性或遍历性的假设, 但实际信源不一定都满足这两个条件.例如非齐次马氏信源, 语音、电脑等信源都是不平稳的, 一般也不具有遍历性.本文主要研究任意有限离散信源广义熵定理以及转移概率随机调和平均的极限性质 (关于连续信源的研究我们将在另文中给出), 并在证明中提出了将Markov不等式和Borel-Cantelli引理等工具应用于强极限定理的研究的一种途径.

设$(X_{n})_{n\in\mathbb{N} } $是在有限字母集$\mathcal{X}=\{1,2,\cdots N\}$中取值的一列随机变量, 记$X_{m}^{n}=(X_{m},\cdots ,X_{n})$, $x_{m}^{n}=(x_{m},\cdots ,x_{n})$是$X_{m}^{n}$的一个实现.令$(X_{n})_{n\in\mathbb{N} } $的联合概率函数为

$P(X_{m}^{n}=x_{m}^{n})=p_{m,n}(x_{m}^{n})>0,\ \ x_{i}\in \mathcal{X},\ 0\leq m\leq i\leq n.$

(1.1)

记

$p_{m,n}(x_{n}\mid x_{m}^{n-1})=P(X_n=x_n\mid X_{m}^{n-1}=x_{m}^{n-1}),\ \ 0\leq m<n.$

(1.2)

定义1 设$(a_{n})_{n\in\mathbb{N} } $是一列固定的正整数, 令$f_{a_{n},n}(\omega)=-\frac{1}{n}\ln p(X_{a_{n}+1}^{a_{n}+n}),$其中$\omega$为样本点, $f_{a_{n},n}(\omega)$称为$ X_{a_{n}+1}^{a_{n}+n}$的广义相对熵密度.

注在上述定义中若令$a_{n}\equiv0$即是通常的相对熵密度的概念, 因此这里给出广义相对熵密度是经典相对熵密度概念的推广.同时广义熵密度由$X_{a_n+1}^{a_n+n}$确定, 它为利用信源的部分信息来计算熵率提供了一种可能.

定义2 令

$h_{a_{n},k}(x_{a_{n}+1}^{k-1} )=-\sum\limits_{{x_k} \in {\cal X}} {} p_{k}(x_{k}\mid x_{a_{n}+1}^{k-1} )\ln p_{k} (x_{k}\mid x_{a_{n}+1}^{k-1});\\ H_{a_{n},k}(\omega)=h_{a_{n},k}(X_{a_{n}+1}^{k-1}).$

$H_{a_{n},k}$称为$X_{k}$关于$X_{a_{n}+1}^{k-1}$的广义随机条件熵.

2 主要结论

定理1 设$(X_{n})_{n\in\mathbb{N} } $是具有分布$(1.1)$的离散信源, 则

$\lim\limits_{n\rightarrow \infty}[f_{a_{n},n}(\omega)-\frac{1}{n}\sum\limits_{k=a_{n}+2}^{a_{n}+n}H_{a_{n},k}(\omega)]=0\ \ \ {\rm a.s.}. $

证设$t$是实数, 令$\Lambda_{a_{n},n}^{(1)}(t,\omega)=\frac{\exp \{t \sum\limits_{k=a_{n}+2}^{a_{n}+ n}\ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})\}}{\prod\limits_{k=a_{n}+2}^{a_{n}+n}E[e^{t \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})}\mid X_{a_{n}+1}^{k-1}]},$由条件期望的性质, 归纳地有

$E\Lambda_{a_{n},n}^{(1)}(t,\omega)\notag\\ =E\{E[\Lambda_{a_{n},n}^{(1)}(t,\omega)\mid X_{a_{n}+1}^{a_{n}+n-1}\}\notag\\ =E\{E[\Lambda_{a_{n},n-1}^{(1)}(t,\omega)\frac{e^{t \ln p_{a_{n}+n}(X_{a_{n}+n}\mid X_{a_{n}+1}^{a_{n}+n-1})}}{E[e^{t \ln p_{a_{n}+n}(X_{a_{n}+n}\mid X_{a_{n}+1}^{a_{n}+n-1})}\mid X_{a_{n}+1}^{a_{n}+n-1}]}\mid X_{a_{n}+1}^{a_{n}+n-1}]\}\notag\\ =E\{\Lambda_{a_{n},n-1}^{(1)}(t,\omega)\frac{E[e^{t \ln p_{a_{n}+n}(X_{a_{n}+n}\mid X_{a_{n}+1}^{a_{n}+n-1})}\mid X_{a_{n}+1}^{a_{n}+n-1}]}{E[e^{t \ln p_{a_{n}+n}(X_{a_{n}+n}\mid X_{a_{n}+1}^{a_{n}+n-1})}\mid X_{a_{n}+1}^{a_{n}+n-1}]}\}\notag\\ =E[\Lambda_{a_{n},n-1}^{(1)}(t,\omega)]=\cdots =E[\Lambda_{a_{n},1}^{(1)}(t,\omega)]=1.$

由Markov不等式, 对任意的$\epsilon >0$, 有

$P(\frac{1}{n}\ln\Lambda_{a_{n},n}^{(1)}(t,\omega)\geq \epsilon)=P(\Lambda_{a_{n},n}^{(1)}(t,\omega)\geq e^{n \epsilon})\leq \frac{E\Lambda_{a_{n},n}^{(1)}(t,\omega)}{e^{n\epsilon}}=e^{-n\epsilon},$

于是$\sum\limits_{n=1}^{\infty}P(\frac{1}{n}\ln\Lambda_{a_{n},n}^{(1)}(t,\omega)\geq \epsilon)\leq \sum\limits_{n=1}^{\infty} e^{-n\epsilon}<\infty,$由Borel-Cantelli引理, 得

$P(\mathop {\lim \sup }\limits_n \frac{1}{n}\ln\Lambda_{a_{n},n}^{(1)}(t,\omega)\geq \epsilon)=0.$

又由$\epsilon$的任意性, 得

$\mathop {\lim \sup }\limits_n \frac{1}{n}\ln\Lambda_{a_{n},n}^{(1)}(t,\omega)\leq 0 \ \ \ {\rm a.s.}.$

(1.3)

注意到

$\frac{1}{n}\ln\Lambda_{a_{n},n}^{(1)}(t,\omega)\notag\\ = \frac{1}{n} \mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} \{t \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})-\ln E[e^{t \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})}\mid X_{a_{n}+1}^{k-1} ]\},$

(1.4)

则由$(1.3), (1.4)$式得

$\mathop {\lim \sup }\limits_n \frac{1}{n} \mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} t \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})\notag\leq \mathop {\lim \sup }\limits_n \frac{1}{n} \mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} \ln E[e^{t \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})}\mid X_{a_{n}+1}^{k-1}]\notag {\rm a.s., }$

利用不等式$\ln x\leq x-1(x>0)$及$ 0\leq e^{x}-1-x\leq x^{2}e^{|x|}$, 有

$\mathop {\lim \sup }\limits_n \frac{1}{n} \mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} \{t \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})-t E[ \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})\mid X_{a_{n}+1}^{k-1} ] \}\notag\\\leq \mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} \{\ln E[e^{t \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})}\mid X_{a_{n}+1}^{k-1} ]-t E[ \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})\mid X_{a_{n}+1}^{k-1}]\}\notag\\\leq \mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} \{E[e^{t \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})}\mid X_{a_{n}+1}^{k-1}]-1-t E[ \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})\mid X_{a_{n}+1}^{k-1} ] \}\notag\\= \mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} \{E[(e^{t \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})}-1-t \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1}))\mid X_{a_{n}+1}^{k-1}]\}\notag\\ \leq t^{2}\mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} E[\ln^{2}p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})e^{\mid t \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})\mid}\mid X_{a_{n}+1}^{k-1} ] {\rm a.s. }.$

(1.5)

当$0< t< 1$时, 不等式$(1.5)$两边同时除以$t$, 得

$\mathop {\lim \sup }\limits_n \frac{1}{n} \mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} \{ \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})- E[ \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})\mid X_{a_{n}+1}^{k-1}] \}\notag\\\leq t\mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} E[\ln^{2}p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})e^{- t \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})}\mid X_{a_{n}+1}^{k-1} ]\notag {\rm a.s. }.$

注意到$\max \{x^{-t+1}\ln^{2} x ,x> 0\}=\frac{4 }{e^{2}(1-t)^{2}}$, 于是由

$E[\ln^{2}p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})e^{- t \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})}\mid X_{a_{n}+1}^{k-1} ]\notag\\=\mathop \sum \limits_{{x_k} = 1}^N p_{k}^{-t}(x_{k}\mid x_{a_{n}+1}^{k-1})\ln^{2}p_{k}(x_{k}\mid x_{a_{n}+1}^{k-1})p_{k}(x_{k}\mid x_{a_{n}+1}^{k-1})\notag\\=\mathop \sum \limits_{{x_k} = 1}^N p_{k}^{-t+1}(x_{k}\mid x_{a_{n}+1}^{k-1})\ln^{2}p_{k}(x_{k}\mid x_{a_{n}+1}^{k-1})\notag\\\leq \frac{4 N}{e^{2}(1-t)^{2}}\notag,$

得

$\mathop {\lim \sup }\limits_n \frac{1}{n} \mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} \{ \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1} )- E[ \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})\mid X_{a_{n}+1}^{k-1}] \}\notag\\\leq t\mathop {\lim \sup }\limits_n \frac{1}{ n}\mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} \frac{4 N}{e^{2}(1-t)^{2}}=\frac{4 Nt }{e^{2}(1-t)^{2}} {\rm a.s., }$

(1.6)

在$(1.6)$式中, 令$t \downarrow 0$,

(1.7)

当$-1<t < 0$时, 同理可得

$\mathop {\lim \inf }\limits_n \frac{1}{n} \mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} \{ \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})- E[ \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})\mid X_{a_{n}+1}^{k-1}] \}\geq 0\ \ \ {\rm a.s.}.$

(1.8)

由$(1.7)$和$(1.8)$式, 有

$\mathop {\lim }\limits_n \frac{1}{n} \mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} \{ \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})- E[ \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})\mid X_{a_{n}+1}^{k-1}] \}= 0\ \ \ {\rm a.s.},$

即

$\mathop {\lim }\limits_n \frac{1}{n} \mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} [ \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})+ H_{a_{n},k}(\omega) ]= 0\ \ \ {\rm a.s.}.$

(1.9)

易知, $E e^{\mid \ln p(X_{a_{n}+1})\mid}=\sum\limits_{x_{a_{n}+1}=1}^{N}e^{-\ln p(X_{a_{n}+1})}p(x_{a_{n}+1})=N$, 则由Markov不等式, 对任意的$\epsilon >0$, 有

$\mathop \sum \limits_{n = 1}^\infty P[\frac{1}{n}\mid \ln p(X_{a_{n}+1})\mid\geq \epsilon]\leq N\mathop \sum \limits_{n = 1}^\infty e^{-n \epsilon}<\infty.$

于是

$\mathop {\lim }\limits_n \frac{1}{n}\ln p(X_{a_{n}+1})=0 \ \ \ {\rm a.s.}.$

(1.10)

由$(1.9)$, $(1.10)$式有

$\mathop {\lim }\limits_n \frac{1}{n}\ln p(X_{a_{n}+1}) +\mathop {\lim }\limits_n \frac{1}{n} \mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} [ \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})+ H_{a_{n},k}(\omega) ]=0 \ \ \ {\rm a.s.},$

即

$\mathop {\lim }\limits_{n \to \infty } [f_{a_{n},n}(\omega)-\frac{1}{n}\mathop \sum \limits_{k = {a_n} + 2}^{{a_n} + n} H_{a_{n},k}(\omega)]=0\ \ \ {\rm a.s.}.$

在文献[11]中, 刘文考虑了任意离散随机序列条件概率的调和平均的极限性质, 最近石志岩和杨卫国在文[12-13]中将文献[11]中的结果推广到树指标非齐次马氏链情形.本文我们则考虑任意离散随机序列条件概率广义调和平均的极限性质, 所得结果包含了文献[11]的结论 (令$a_{n}=0$即得文[11]中的主要结果).关于树指标非齐次马氏链转移概率的广义调和平均的极限性质我们将在另文中讨论.

定义3 设$t$为实数, 令

$M_{m,k}(t,X_{m}^{k-1})\notag\\=E[e^{tp^{-1}_{m,k}(X_{k}\mid X_{m},X_{k-1})}\mid X_{m}^{k-1}]\notag\\ =\sum\limits_{{x_k} \in {\cal X}} {} e^{tp^{-1}_{m,k}(x_{k}\mid x_{m},x_{k-1})} p_{m,k}(x_{k}\mid x_{m}^{k-1}),\ \ 0\leq m<k,$

(1.11)

称$M_{m,k}(t,x_{m}^{k-1})$为在条件$X_{m}^{k-1}=x_{m}^{k-1}$下, $p_{m,k}^{-1}(X_{k}\mid X_{m}^{k-1})$的随机条件矩母函数.

定理2 设$(a_{n})_{n\in \mathbb{N}}$是一列固定的正整数, $(X_{n})_{n\in\mathbb{N}}$是由式$(1.1)$定义的随机变量, 令

$b_{a_{n},k}=\min \{p_{a_{n},k}(x_{k}|x_{a_{n}}^{k-1}),\ x_{i}\in \mathcal{X},a_{n}\leq i\leq k\},\ k=a_{n}+1,a_{n}+2,\cdots,$

如果存在$\alpha>0$, 使得

$\mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} e^{\alpha/b_{a_{n},k}}=M<\infty,$

则

$\mathop {\lim }\limits_n \frac{n}{\sum\limits_{k=a_{n}+1}^{a_{n}+n}p_{a_n,k}^{-1}(X_{k}\mid X_{a_{n}}^{k-1})}=\frac{1}{N}\ \ \ {\rm a.s.}.$

(1.12)

证令

$\Lambda_{a_{n},n}^{(2)}(t,\omega)=\prod\limits_{k = {a_n} + 1}^{{a_n} + n} {\frac{{{e^{tp_{{a_n},k}^{ - 1}({X_k}\mid X_{{a_n}}^{k - 1})}}}}{{{M_{{a_n},k}}(t,X_{{a_n}}^{k - 1})}}} .$

注意到

$E\Lambda_{a_{n},n}^{(2)}(t,\omega)\notag\\ = E\{E[\Lambda_{a_{n},n}^{(2)}(t,\omega)\mid X_{a_{n}}^{a_{n}+n-1}]\}\notag\\ = E\{\begin{array}{l} E[\prod\limits_{k = {a_n} + 1}^{{a_n} + n} {\frac{{{e^{tp_{{a_n},k}^{ - 1}({X_k}\mid X_{{a_n}}^{k - 1})}}}}{{{M_{{a_n},k}}(t,X_{{a_n}}^{k - 1})}}} \mid X_{{a_n}}^{{a_n} + n - 1}]\} \\ = E[\Lambda _{{a_n},n - 1}^{(2)}(t,\omega )] = \cdots = 1 \end{array}.$

类似定理$1$的证明, 可得

$\mathop {\lim \sup }\limits_n \frac{1}{n}\ln\Lambda_{a_{n},n}^{(2)}(t,\omega)\leq 0 \ \ \ {\rm a.s.}.$

即

$\mathop {\lim \sup }\limits_n \frac{1}{n}[\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} tp^{-1}_{a_{n},k}(X_{k}\mid X_{a_{n}}^{k-1})- \mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} \ln M_{a_{n},k}(t,X_{a_{n}}^{k-1})]\leq 0 {\rm a.s.. }$

利用不等式$\ln x\leq x-1(x>0)$及$ 0\leq e^{x}-1-x\leq x^{2}e^{|x|}$, 有

$\mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} [tp^{-1}_{a_{n},k}(X_{k}\mid X_{a_{n}}^{k-1})-Nt]\notag\\ \leq \mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} [\ln M_{a_{n},k}(t,X_{a_{n}}^{k-1})-Nt]\notag\\ \leq \mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} [ M_{a_{n},k}(t,X_{a_{n}}^{k-1})-1-Nt]\notag\\ = \mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} \mathop \sum \limits_{{x_k} = 1}^N p_{a_{n},k}(x_{k}\mid X_{a_{n}}^{k-1})[e^{tp^{-1}_{a_{n},k}(x_{k}\mid X_{a_{n}}^{k-1})}-1-tp^{-1}_{a_{n},k}(x_{k}\mid X_{a_{n}}^{k-1})]\notag\\ \leq t^{2}\mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} \mathop \sum \limits_{{x_k} = 1}^N p^{-1}_{a_{n},k}(x_{k}\mid X_{a_{n}}^{k-1})e^{|t|p^{-1}_{a_{n},k}(x_{k}\mid X_{a_{n}}^{k-1}) }\notag\\ \leq t^{2}N\mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} \frac{1}{b_{a_{n},k}}\cdot e^{\frac{|t|}{b_{a_{n},k}}} {\rm a.s.. }$

(1.13)

易知当$0<\lambda <1$时, 有$\max \{x\lambda^{x},x>0\}=-\frac{1}{e\ln \lambda}.$当$0<t<\alpha$时, 有

$\mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} [p^{-1}_{a_{n},k}(X_{k}\mid X_{a_{n}}^{k-1})-N]\notag\\ \leq tN\mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} \frac{1}{b_{a_{n},k}}\cdot e^{\frac{t}{b_{a_{n},k}}} =tN\mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} \frac{1}{b_{a_{n},k}}(\frac{e^{t}}{e^{\alpha}})^{1/b_{a_{n},k}}e^{\alpha/b_{a_{n},k}}\notag\\ \leq tN\frac{1}{e(\alpha-t)}\mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} e^{\alpha/b_{a_{n},k}}=\frac{tNM}{e(\alpha-t)}\rightarrow 0,(t\rightarrow 0)\notag {\rm a.s., }$

即

$\mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} [p^{-1}_{a_{n},k}(X_{k}\mid X_{a_{n}}^{k-1})-N]\leq 0\ \ {\rm a.s.}.$

(1.14)

当$-\alpha <t<0$时, 由$(1.13)$式得

$\mathop {\lim \inf }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} [p^{-1}_{a_{n},k}(X_{k}\mid X_{a_{n}}^{k-1})-N]\notag\\ \geq tN\mathop {\lim \inf }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} \frac{1}{b_{a_{n},k}}\cdot e^{\frac{-t}{b_{a_{n},k}}}\notag\\ = tN\mathop {\lim \inf }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} \frac{1}{b_{a_{n},k}}\cdot e^{-(t+\alpha)/b_{a_{n},k}}e^{\alpha/b_{a_{n},k}}\notag\\ \geq \frac{tNM}{e(\alpha+t)}\rightarrow 0,(t\rightarrow 0)\ \ {\rm a.s.},$

从而得

$\mathop {\lim \inf }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} [p^{-1}_{a_{n},k}(X_{k}\mid X_{a_{n}}^{k-1})-N]\geq 0.$

(1.15)

则由$(1.14)$, $(1.15)$式得

$\mathop {\lim }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} [p^{-1}_{a_{n},k}(X_{k}\mid X_{a_{n}}^{k-1})-N]=0\ \ {\rm a.s.},$

即得结论.证毕.

推论1 (见文[11]) 设$(X_{n})_{n\in\mathbb{N}}$是具有联合分布$(1.1)$的一列随机变量, 令

$b_{k}=\min\{p_{0,k}(x_{k}\mid x_{0}^{k-1}),x_{i}\in x,0\leq i\leq k\},k\geq 1.$

如果存在$\alpha >0$, 使得

$\mathop {\lim \sup }\limits_n \frac{1}{n}\sum_{k=1}^{n}e^{\alpha/b_{k}}=M<\infty,$

则随机条件概率$\{p_{0,k}(X_{k}\mid X_{0},\cdots,X_{k-1}),1\leq k\leq m\}$的调和平均a.s.收敛于$\frac{1}{N}$, 即

$\mathop {\lim }\limits_n \frac{n}{\sum_{k=1}^{n}p^{-1}_{0,k}(X_{k}\mid X_{0}^{k-1})}=\frac{1}{N} {\rm a.s.}. $

证在定理$2$中令$a_{n}\equiv 1$即得.

推论2 设$m$是正整数, $(X_n)_{n\in\mathbb{N}}$是$m$重非齐次马氏链, 其初始分布与转移概率分别是

$p(x_0^{m-1})=P(X_0^{m-1}=x_0^{m-1})>0,\ \ x_i\in\mathcal{X},\\ p_{m+k}(x_{m+k}|x_k^{k+m-1})=P(X_{m+k}=x_{m+k}|X_k^{k+m-1}=x_k^{k+m-1})>0,\ \ k\geq 0\notag.$

令

$b_k=\min\{p_{m+k}(x_{k+m}|x_k^{k+m-1}):x_i\in\mathcal{X},\ k\leq i\leq m+k\}.$

如果存在$\alpha>0$, 使得

$\mathop {\lim \sup }\limits_n \frac{1}{n}\mathop \sum \limits_{k = {a_n} + 1}^{{a_n} + n} e^{\alpha/b_{k}}=M<\infty,$

则

$\mathop {\lim }\limits_n \frac{n}{\sum\limits_{k=a_{n}+1}^{a_{n}+n}p_{m+k}^{-1}(X_{m+k}\mid X_{a_{n}}^{k-1})}=\frac{1}{N}\ \ \ {\rm a.s.}.$

(1.16)

证根据马氏性即得.

推论3 设$(X_n)_{n\in\mathbb{N}}$是独立同分布随机序列, 概率函数为

$p(x_0)=P(X_0=x_0)>0,\ \ x_0\in\mathcal{X},$

则

$\lim\limits_{n\rightarrow\infty}\frac{n}{\sum\limits_{k=a_n+1}^{a_n+n}p^{-1}(X_k)}=\frac{1}{N}\ \ {\rm a.s.}. $

参考文献

[1]	Shannon C E. A mathematical theory of communication[J]. Bell Sgst. Tech. J., 1948, 27: 379–423. DOI:10.1002/bltj.1948.27.issue-3

[2]	McMillan B. The basic theorems of information theory[J]. Ann. Math. Stat., 1953, 24: 196–219. DOI:10.1214/aoms/1177729028

[3]	Breiman L. The individual ergodic theorem of information theory[J]. Ann. Math. Stat., 1957, 28: 809–811. DOI:10.1214/aoms/1177706899

[4]	Chung K L. A note on the ergodic theorem of information theory[J]. Ann. Math. Stat., 1961, 32: 612–614. DOI:10.1214/aoms/1177705069

[5]	Moy S C. Generalization of the Shannon-McMillan theorem[J]. Paciflc J. Math., 1961: 705–714.

[6]	Pierze J R. The early days of information theory[J]. IEEE Trans. Inf. Theory, 1973, 6: 3–8.

[7]	Kiefier J C. A simple proof of the Moy-Perez generalization of the Shannon-McMillan theorem[J]. Paciflc J. Math., 1974, 51: 203–206. DOI:10.2140/pjm

[8]	Barron A R. The strong ergodic theorem for densities: generalized Shannon-McMillan-Breiman theorem[J]. Ann. Prob., 1985, 13: 1292–1303. DOI:10.1214/aop/1176992813

[9]	Orey S. On the Shannon-Perez-Moy theorem[J]. Contemp. Math., 1985, 41: 319–327. DOI:10.1090/conm/041

[10]	Algoet P, Cover T M. A sandwich proof of the Shannon-McMillan-Breiman theorem[J]. Ann. Prob., 1988, 16(2): 899–909. DOI:10.1214/aop/1176991794

[11]	刘文. 非负整值随机变量序列的一类强偏差定理[J]. 数学物理学报, 1997, 17(4): 375–381.

[12]	石志岩, 杨卫国. 树上非齐次马氏链随机转移概率的极限性质[J]. 应用数学学报, 2008, 31(4): 648–653.

[13]	Shi Zhiyan, Yang Weiguo. Some limit properties of random transition probability for second-order nonhomogenous Markov chains indexed by a tree[J]. J. Ine. Appl., ID 503203, 2009.