Shannon-McMillan定理在信息论中占有十分重要地位, 它表明在一定的意义下信源的相对熵密度收敛于其熵率. Shannon在$1948$年的开创性论文[1]中, 证明了平稳遍历有限马氏信源的相对熵密度按概率收敛于熵率, McMillan [2]和Breiman[3]分别得到了有限字母集上的信源的$\mathcal{L}_{1}$收敛和a.s.收敛性. Chung [4]考虑了字母集为可列的情况, Moy [5] Perez [6]和Keiffer [7]获得了当信源连续取值且遍历时的$\mathcal{L}_{1}$收敛性. Barron [8]和Orey [9]证明了实值遍历过程的几乎处处收敛性, Algoet和Cover [10]利用简单的三明治方法证明一般的AEP.后来许多作者讨论了更为一般的结果 (见文[10]及其所引文献).
以往关于信源极限性质的研究大都对信源作了平稳性或遍历性的假设, 但实际信源不一定都满足这两个条件.例如非齐次马氏信源, 语音、电脑等信源都是不平稳的, 一般也不具有遍历性.本文主要研究任意有限离散信源广义熵定理以及转移概率随机调和平均的极限性质 (关于连续信源的研究我们将在另文中给出), 并在证明中提出了将Markov不等式和Borel-Cantelli引理等工具应用于强极限定理的研究的一种途径.
设$(X_{n})_{n\in\mathbb{N} } $是在有限字母集$\mathcal{X}=\{1,2,\cdots N\}$中取值的一列随机变量, 记$X_{m}^{n}=(X_{m},\cdots ,X_{n})$, $x_{m}^{n}=(x_{m},\cdots ,x_{n})$是$X_{m}^{n}$的一个实现.令$(X_{n})_{n\in\mathbb{N} } $的联合概率函数为
记
定义1 设$(a_{n})_{n\in\mathbb{N} } $是一列固定的正整数, 令$f_{a_{n},n}(\omega)=-\frac{1}{n}\ln p(X_{a_{n}+1}^{a_{n}+n}),$其中$\omega$为样本点, $f_{a_{n},n}(\omega)$称为$ X_{a_{n}+1}^{a_{n}+n}$的广义相对熵密度.
注 在上述定义中若令$a_{n}\equiv0$即是通常的相对熵密度的概念, 因此这里给出广义相对熵密度是经典相对熵密度概念的推广.同时广义熵密度由$X_{a_n+1}^{a_n+n}$确定, 它为利用信源的部分信息来计算熵率提供了一种可能.
定义2 令
$H_{a_{n},k}$称为$X_{k}$关于$X_{a_{n}+1}^{k-1}$的广义随机条件熵.
定理1 设$(X_{n})_{n\in\mathbb{N} } $是具有分布$(1.1)$的离散信源, 则
证 设$t$是实数, 令$\Lambda_{a_{n},n}^{(1)}(t,\omega)=\frac{\exp \{t \sum\limits_{k=a_{n}+2}^{a_{n}+ n}\ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})\}}{\prod\limits_{k=a_{n}+2}^{a_{n}+n}E[e^{t \ln p_{k}(X_{k}\mid X_{a_{n}+1}^{k-1})}\mid X_{a_{n}+1}^{k-1}]},$由条件期望的性质, 归纳地有
由Markov不等式, 对任意的$\epsilon >0$, 有
于是$\sum\limits_{n=1}^{\infty}P(\frac{1}{n}\ln\Lambda_{a_{n},n}^{(1)}(t,\omega)\geq \epsilon)\leq \sum\limits_{n=1}^{\infty} e^{-n\epsilon}<\infty,$由Borel-Cantelli引理, 得
又由$\epsilon$的任意性, 得
注意到
则由$(1.3), (1.4)$式得
利用不等式$\ln x\leq x-1(x>0)$及$ 0\leq e^{x}-1-x\leq x^{2}e^{|x|}$, 有
当$0< t< 1$时, 不等式$(1.5)$两边同时除以$t$, 得
注意到$\max \{x^{-t+1}\ln^{2} x ,x> 0\}=\frac{4 }{e^{2}(1-t)^{2}}$, 于是由
得
在$(1.6)$式中, 令$t \downarrow 0$,
当$-1<t < 0$时, 同理可得
由$(1.7)$和$(1.8)$式, 有
即
易知, $E e^{\mid \ln p(X_{a_{n}+1})\mid}=\sum\limits_{x_{a_{n}+1}=1}^{N}e^{-\ln p(X_{a_{n}+1})}p(x_{a_{n}+1})=N$, 则由Markov不等式, 对任意的$\epsilon >0$, 有
于是
由$(1.9)$, $(1.10)$式有
在文献[11]中, 刘文考虑了任意离散随机序列条件概率的调和平均的极限性质, 最近石志岩和杨卫国在文[12-13]中将文献[11]中的结果推广到树指标非齐次马氏链情形.本文我们则考虑任意离散随机序列条件概率广义调和平均的极限性质, 所得结果包含了文献[11]的结论 (令$a_{n}=0$即得文[11]中的主要结果).关于树指标非齐次马氏链转移概率的广义调和平均的极限性质我们将在另文中讨论.
定义3 设$t$为实数, 令
称$M_{m,k}(t,x_{m}^{k-1})$为在条件$X_{m}^{k-1}=x_{m}^{k-1}$下, $p_{m,k}^{-1}(X_{k}\mid X_{m}^{k-1})$的随机条件矩母函数.
定理2 设$(a_{n})_{n\in \mathbb{N}}$是一列固定的正整数, $(X_{n})_{n\in\mathbb{N}}$是由式$(1.1)$定义的随机变量, 令
如果存在$\alpha>0$, 使得
则
证 令
类似定理$1$的证明, 可得
易知当$0<\lambda <1$时, 有$\max \{x\lambda^{x},x>0\}=-\frac{1}{e\ln \lambda}.$当$0<t<\alpha$时, 有
当$-\alpha <t<0$时, 由$(1.13)$式得
从而得
则由$(1.14)$, $(1.15)$式得
即得结论.证毕.
推论1 (见文[11]) 设$(X_{n})_{n\in\mathbb{N}}$是具有联合分布$(1.1)$的一列随机变量, 令
如果存在$\alpha >0$, 使得
则随机条件概率$\{p_{0,k}(X_{k}\mid X_{0},\cdots,X_{k-1}),1\leq k\leq m\}$的调和平均a.s.收敛于$\frac{1}{N}$, 即
证 在定理$2$中令$a_{n}\equiv 1$即得.
推论2 设$m$是正整数, $(X_n)_{n\in\mathbb{N}}$是$m$重非齐次马氏链, 其初始分布与转移概率分别是
令
证 根据马氏性即得.
推论3 设$(X_n)_{n\in\mathbb{N}}$是独立同分布随机序列, 概率函数为