在处理测量数据的过程中, 人们通常假定观测值误差服从正态分布, 而随着观测仪器与观测手段的不断进步, 观测值误差变得更加复杂多样, 其误差的分布有时就会与正态分布相差甚远[1]. 一些学者发现, 当假设观测值误差服从$ p- $范分布[2](定义见下文)时, 通过选择合适的形状参数$ p $值, 得到的分布比正态分布更接近于误差的真实分布(如GPS观测值误差[3], 地图数字化误差[4]等). 在现实生活中, 许多领域的数据往往是不对称的(见文献[5]), 于是一些学者对此进行了研究, 例如: Azzalini[6]提出了偏正态分布; 随后, Azzalini等[7]又提出了偏$ t $分布; Aryal等[8]提出了偏拉普拉斯分布. 在此基础上, 本文提出了偏$ p- $范分布, 且当偏态参数$ \lambda=0 $时, 相应的分布为$ p- $范分布, 通过选择合适的偏态参数$ \lambda $与形状参数$ p $值, 使用偏$ p- $范分布来拟合部分非对称数据, 可以达到更好的效果.
无论是假设检验还是区间估计, 通常都需要事先给定显著性水平(置信水平), 常见取值为0.01, 0.05或0.1, 具体的选择不仅取决于研究领域的标准和实际需求, 同时也包含研究者的主观判断, 而不同的显著性水平可能会导致假设检验作出完全不同的决策. 因此, 显著性水平的选择一直存在争议, 例如: Grant[9]通过检查正态分布曲线的形状, 得到具有统计学意义的$ p $值(即常说的显著性水平值)应该是8%, 而非5%; 美国统计学会在2016年(见文献[10])发布了关于$ p $值和统计显著性的政策声明, 指出了目前存在的关于统计显著性与$ p $值的错误理解和应用; Benjamin[11]等提出将统计显著性的默认$ p $值阈值(显著性水平值)从0.05调整为0.005; Valmira Hoxhaj[12]等提出了通过几何曲率(定义见下文)的方式确定偏正态分布的显著性水平. 本文采用类似于文献[12]的方法, 通过偏$ p- $范分布的几何曲率最大值的阈值的左尾(右尾)概率来刻画偏$ p- $范分布假设检验过程中的显著性水平, 并将结果运用到加拿大ALGO测站的GPS数据分析, 得到的结论与文献[3]一致. 本文认为, 显著性水平的选择应当取决于数据的分布, 不同的分布应当选取不同的显著性水平, 当假设一组数据服从某个特定分布时, 其显著性水平应通过计算该分布的概率密度函数的几何曲率最大值的阈值对应的尾概率来唯一确定, 而不是凭主观意向选取, 从而避免因显著性水平的选取而引发的争议.
为了得到偏$ p- $范分布的密度函数, 我们先简要介绍关于$ p- $范分布和偏态分布的定义.
定义2.1[1] 令$ \Gamma \left( x \right) $为伽马函数, $ a ={ \left[ \Gamma \left( 3/p \right) / \Gamma \left( 1/p \right) \right] }^{ 1/2 } $, $ p>0 $, 则期望为$ \mu $, 方差为$ {\sigma }^{ 2 } $的一元$ p- $范分布的密度函数为
定义2.2[6] 设$ g\left( x \right) $是关于y轴对称的密度函数, $ G\left( x \right) $是绝对连续的分布函数, 且满足$ G^{\prime} \left( x \right) $关于y轴对称, $ \lambda $为任意实数, 则称密度函数为
的分布为关于偏态参数$ \lambda $的偏态分布.
由上述$ p- $范分布(假定其期望为0)以及偏态分布的定义, 我们可以得到一元偏$ p- $范分布的密度函数.
定理2.1 设$ X $是一个服从一元偏$ p- $范分布的随机变量, $ \lambda $为任意实数, 则随机变量$ X $的密度函数为
证 记$ g\left( x \right) $为一元$ p- $范分布的密度函数, 其中期望$ \mu =0 $, 则有
设$ G\left( x \right) $为一元$ p- $范分布的分布函数, 则
将上述$ g\left( x \right) $与$ G\left( \lambda x \right) $代入(2.1)式, 即可得到定理.
定义3.1[12] 设$ X $是一个随机变量, 则其概率密度函数$ f\left( x \right) $在点$ x $处的几何曲率为
上式中$ d\xi $为倾斜角, $ dS $为曲线$ f\left( x \right) $对应的弧长, $ \frac{ d\xi }{ dS } $为倾斜角相对于密度曲线弧长的变化率.
定理3.1 设$ X $是服从一元偏$ p- $范分布的随机变量, 则其密度函数$ f_{X}\left( x \right) $在点$ x $处的几何曲率$ k\left( x \right) $为
其中
证 由(2.2)式可得: 当$ \lambda >0 $时, 偏$ p- $范分布的密度函数为
当$ \lambda <0 $时, 偏$ p- $范分布的密度函数为
当$ \lambda =0 $时, 偏$ p- $范分布的密度函数为
因此需分六种情况对结论进行证明:
(1) 当$ \lambda >0 $, $ x<0 $时, 令
则有
于是有
(2) 当$ \lambda >0 $, $ x>0 $时, 令
(3) 当$ \lambda <0 $, $ x<0 $时, 有
(4) 当$ \lambda <0 $, $ x>0 $时, 有
(5) 当$ \lambda =0 $, $ x<0 $时, 有
(6) 当$ \lambda =0 $, $ x>0 $时, 有
整理可得
令
由于当$ x\to 0 $时有
故$ f_{X}\left( x \right) $在$ x=0 $处二阶可导, 且满足(3.3)与(3.4)式. 将(3.3)与(3.4)式代入(3.1)式, 即可得到定理.
由第3节可知, 密度曲线的几何曲率表示了曲线在某一点处的弯曲程度. Valmira Hoxhaj等[12]研究了偏正态分布的密度曲线, 密度曲线的快速下降表明了低概率区域的开始, 并将其定义为超过曲线几何曲率最大值对应的阈值$ x_{0} $的区域, 即为临界拒绝域. 于是, 显著性水平的选择应该是几何曲率最大值阈值$ x_{0} $对应的左尾(或右尾)概率$ p\left( x_{0} \right) $, 在厚尾分布的情况下, 相应的显著性水平也会增加, 即不同的分布有其唯一确定的显著性水平值. 由于下文的数据服从$ p=1.4 $的$ p- $范分布, 所以本节我们以此为例研究偏$ p=1.4- $范分布的显著性水平值. 取$ p=1.4 $, $ \sigma =0.45 $, $ \lambda $取不同值时, 偏$ p=1.4- $范分布的密度曲线如图 1. 从图 1中可以看出两个结论: 第一, 当$ \lambda =0 $时, 对应于$ p=1.4- $范分布的密度函数; 当$ \lambda <0 $时, 偏$ p=1.4- $范分布的密度曲线左偏; 当$ \lambda >0 $时, 偏$ p=1.4- $范分布的密度曲线右偏. 第二, 偏$ p=1.4- $范分布密度曲线对于偏态参数$ \left| \lambda \right| $关于$ y=0 $左右对称, 随着$ \left| \lambda \right| $的增大, 其密度函数峰值也在逐渐增大. 因此, 按照上述方法, 我们可以先研究当偏态参数$ \lambda <0 $时, 对应的偏$ p=1.4- $范分布左偏时的左尾分布, 即在$ x < E\left( x \right) $的条件下对(3.2)式中的$ k\left( x \right) $关于$ x $进行最大化. 其中: $ E\left( x \right) $表示给定$ \lambda $的偏$ p=1.4- $范分布的数学期望, $ k\left( {x}^{*} \right) $表示对应的偏$ p=1.4- $范分布密度函数的几何曲率$ k\left( x \right) $的最大值, $ {x}^{*}(\lambda )={x}^{*} $表示$ k\left( {x}^{*} \right) $对应的阈值, $ p\left( {x}^{*} \right) $表示偏$ p=1.4- $范分布在$ {x}^{*} $处的左尾概率, 即$ p\left( {x}^{*} \right)=P\left( X\le {x}^{*} \right) $.
部分结果见表 1与图 2. 图 2显示了$ k\left( {x}^{*} \right) $, $ {x}^{*} $和$ p\left( {{x}^{*}} \right) $随$ \lambda $变化的行为, 可以得知: 当偏态参数$ \lambda <-3 $时, 三者都趋于稳定, 对应的偏$ p=1.4- $范分布假设检验以及区间估计的显著性水平保持不变$ \left( p\left( {x}^{*} \right) = 0.0404 \right) $. 于是我们只需要对$ -3\le \lambda \le 0 $的部分按照表 1结果去选择相应的显著性水平. 对于$ \lambda >0 $的部分, 偏$ p=1.4- $范分布由左偏变为右偏, 则研究对应的偏$ p=1.4- $范分布右偏时的右尾分布, 即在$ x > E\left( x \right) $的条件下对$ k\left( x \right) $关于$ x $进行最大化. 由于偏$ p=1.4- $范分布密度函数曲线对于偏态参数$ \left| \lambda \right| $关于$ y=0 $左右对称, 因此对应的数学期望以及最大曲率的阈值$ {x}^{*} $与表 1相反, 最大曲率$ k\left( {x}^{*} \right) $以及相应的右尾概率$ p( {x}^{*} ) $与表 1相同.
本文数据来自加拿大Algonquin Park的ALGO测站点, 利用接收机采集获得2013-04-28的观测数据, 经过处理后, 取其中200个误差值作为样本数据(见文献[13]). 由文献[3]可知, 经过处理后GPS输出的最终观测值误差服从$ p=1.4 $的$ p- $范分布, 下面用两种方法来验证结果.
首先使用Kolmogorov-Smirnov检验样本是否服从$ p=1.4 $的$ p- $范分布, 检验问题为:
采取矩估计方法对参数进行估计
由表 1最后一行可知显著性水平$ \alpha =0.0430 $. 使用Python的scipy.stats库中的kstest函数检验, 经检验输出的临界概率值为0.9872, 即接受原假设, 认为样本数据服从$ p=1.4 $的$ p- $范分布.
其次使用近似U检验的方法(见文献[14])对样本数据进行检验, 检验问题简化为:
由文献[15]可得
检验问题可转化为
从而可以得到
令$ H = \frac{ h\left( \hat{p} \right) - h\left( {p}_{0} \right)}{\sqrt{ D\left( h\left( \hat{p} \right) \right) }} $, 则由中心极限定理可得$ H\to N(0, 1), n\to \infty $, 于是检验的统计量为
由于检验统计量渐近服从标准正态分布($ p=2, \mu =0, \sigma =1 $的$ p- $范分布), 则由文献[12]可知此假设检验的显著性水平取0.0393. 于是上述统计量的的拒绝域为
当$ {H}_{0} $成立时, 计算可得
所以$ H=0.0894 $, 故接受原假设, 从而说明了样本数据服从$ p=1.4 $的$ p- $范分布.