血样数量很大的化验检查 (如人群疾病普查等) 可采取分组化验, 恰当地分组可减少化验次数降低成本[1,6].自上个世纪八十年代严士健教授在其著述《概率与数理统计基础》一书中提出这个问题以来, 不少数学工作者对此进行探索并取得了一些研究成果[1-6].由于分组化验模型涉及到解超越方程, 而超越方程一般无解析解, 致使目前对这个问题的研究所得出的结论还不够完备, 主要表现在尚未准确得出最佳分组$k$值计算公式.所谓最佳分组$k$值, 指的是在所有分组方案中使得化验次数最少的方案所对应的每个小组的血样份数.本文所要解决的问题是, 以相关文献关于分组化验问题的研究结论为基础, 探讨最佳分组$k$值的确定方法, 得出最佳分组$k$值计算公式.
设需化验的血样总份数为$N$($N$充分大), 把这$N$份血样分为若干组, 每组$k$份.将每一组中的$k$份血样各取出一部分混合在一起进行化验:若混合液呈阴性, 则说明这$k$份血样都呈阴性, 这时这$k$份血样就只需化验一次; 若混合液呈阳性, 则说明这$k$份血样中至少有一份呈阳性, 这时再对这个组的$k$份血样逐份化验, 这种情况下需化验$k + 1$次[1,6].这里假定该化验是定性检验, 并且血液混合起来没有交互作用[4,6].
设血样呈阳性的概率 (先验概率) 为$p$($0 < p < 1$), 呈阴性的概率为$q$($q = 1 - p$), 记每份血样的化验次数为$\xi $, 则$\xi $是一个随机变量, 其数学期望为$E(\xi ) = \frac{1}{k} \cdot {q^k} + \frac{{k + 1}}{k} \cdot (1 - {q^k}) = 1 + \frac{1}{k} - {q^k}$, $N$份血样化验次数的平均值即为$N(1 + \frac{1}{k} - {q^k})$.
分组化验模型的核心问题是:
①当血样阳性概率$p$为多少时, 分组化验比不分组化验能够减少化验次数[1,6]?即$p$值在什么范围时, 存在正整数$k > 1$使得$f(k) = 1 + \frac{1}{k} - {q^k} < 1$?
②当血样阳性概率$p$给定, 如何确定每组的血样份数使化验次数最少[1,6]?即$p$值给定, $k$取何值时, $f(k) = 1 + \frac{1}{k} - {q^k}$取得最小值?
设血样阳性概率为$p$($0 < p < 1$), 若存在正整数$k > 1$使得$1 + \frac{1}{k} - {q^k} < 1$, 当且仅当${q^k} > \frac{1}{k}$, 即$q > \frac{1}{{\sqrt[k]{k}}}$.为此, 首先讨论函数$g(x) = \frac{1}{{\sqrt[x]{x}}}$($x > 1$) 的性态.
引理1 [1] 函数$g(x) = \frac{1}{{\sqrt[x]{x}}}$($x > 1$) 当$x = e$时取得最小值$g(e) = \frac{1}{{\sqrt[e]{e}}}$.
证 $g'(x) = \frac{1}{{\sqrt[x]{x}}} \cdot \frac{1}{{{x^2}}}(\ln x - 1)$.
令$g'(x) = 0$, 得$g(x)$的唯一驻点$x = e$.当$1 < x < e$时, $g'(x) < 0$; 当$x > e$时, $g'(x) > 0$.
故$g(x)$在$x = e$处取得极小值 (也是最小值)$g(e) = \frac{1}{{\sqrt[e]{e}}}$.
定理1 设$f(k) = 1 + \frac{1}{k} - {q^k}$($0 < q < 1$, $k \in {N_ + }$, $k > 1$), 则当且仅当$\frac{1}{{\sqrt[3]{3}}} < q < 1$时, 存在大于1的正整数$k$使得$f(k) < 1$.
证 充分性当$\frac{1}{{\sqrt[3]{3}}} < q < 1$时, 存在$k = 3$使得$f(k) = 1 + \frac{1}{k} - {q^k} = 1 + \frac{1}{3} - {q^3} < 1$.
必要性对给定的血样阳性概率$p$($0 < p < 1$), 若存在正整数$k > 1$使得$1 + \frac{1}{k} - {q^k} < 1$, 则${q^k} > \frac{1}{k}$, 即$q > \frac{1}{{\sqrt[k]{k}}}$.
由引理1的证明过程可知, $g(x) = \frac{1}{{\sqrt[x]{x}}}$在区间$(e, + \infty )$内单调增大, 故
又因$g(2) = g(4) = {\textstyle{{\sqrt 2 } \over 2}}$, $\mathop {\lim}\limits_{k \to +\infty } \frac{1}{{\sqrt[k]{k}}} = 1$, 于是
这说明当$x$取大于1的正整数时, 对应的整数点的函数值以$g(3) = \frac{1}{{\sqrt[3]{3}}}$为最小, 故
证毕.
这个定理说明:当$0 < q \le \frac{1}{{\sqrt[3]{3}}}$时, 无论怎样选取正整数$k$都不能减少化验次数[1]; 而当$\frac{1}{{\sqrt[3]{3}}} < q < 1$时一定存在大于1的正整数$k$使化验次数减少.即是说, 当且仅当血液的阳性概率$p$在区间$(0$, $1 - \frac{1}{{\sqrt[3]{3}}})$内时, 通过恰当分组实施分组化验能使化验次数减少 (相对于不分组化验).
需要进一步考虑的问题是:对于给定的血样阳性概率$p$($0 < p < 1 - \frac{1}{{\sqrt[3]{3}}}$), 是否存在大于1的正整数$k^*$使化验次数最少?若存在, 如何确定?
以下称使得化验次数最少的分组方案为最佳分组方案, 最佳分组对应的$k$值称作最佳分组$k$值[1].
引理2 [1] 函数$f(x) = 1 + \frac{1}{x} - {q^x}$($x > 1$, $\frac{1}{{\sqrt[3]{3}}} < q < 1$) 存在最小值, 最小值点${x^*} \in (1,\frac{{ - 1}}{{\ln q}})$ (证明见文献[1]).
这个引理证明了函数$f(x) = 1 + \frac{1}{x} - {q^x}$ ($x > 1$, $\frac{1}{{\sqrt[3]{3}}} < q < 1$) 的最小值的存在性.针对给定的血样阳性概率$p$$(0 < p < 1 - \frac{1}{{\sqrt[3]{3}}})$, 若能求得函数$f(x) = 1 + \frac{1}{x} - {q^x}$($x > 1$, $\frac{1}{{\sqrt[3]{3}}} < q < 1$) 的最小值点${x^*}$, 则只需比较$f(x)$在[$x^*$ ]与[$x^{*}$ +1]处的函数值即可确定最佳分组$k$值$k^{*}$ (二者对应的函数值相等时, 为使分组组数尽可能少最佳分组$k$值取[$x^{*}$ +1]).
下文讨论最佳分组$k$值的确定方法时将用到如下迭代收敛定理:
引理3 [7] 设在区间$(a,b)$内$h'(x) > 0$, $h''(x)$保持符号, 且$a < h(a)$, $b > h(b)$, 则对任意初值${x_0} \in (a,b)$, 由迭代公式${x_{n + 1}} = h({x_n})$ ($n = 0$, 1, 2, 3, ${\cdots}) $产生的数列$\{ {x_n}\} $单调收敛于方程$x = h(x)$在$(a,b)$内的唯一实根$x^{*}$ (证明见文献[7]).
以下利用引理2和引理3证明如下结论:
定理2 对于任意初值${x_0} \in (1,\frac{{ - 1}}{{\ln q}})$, 由迭代式${x_{n + 1}} = \sqrt {\frac{{ - 1}}{{{q^{{x_{_n}}}}\ln q}}} $产生的数列$\{ {x_n}\} $必收敛于函数$f(x) = 1 + \frac{1}{x} - {q^x}$($x > 1$, $\frac{1}{{\sqrt[3]{3}}} < q < 1$) 在区间$(1,\frac{{ - 1}}{{\ln q}})$内的最小值点${x^*}$.
证 由引理2知, 函数$f(x) = 1 + \frac{1}{x} - {q^x}$ ($x > 1$, $\frac{1}{{\sqrt[3]{3}}} < q < 1$) 的最小值点${x^*} \in (1,\frac{{ - 1}}{{\ln q}})$, 且${x^*}$恰是$\varphi (x) = 1 + {x^2}{q^x}\ln q$在区间$(1,\frac{{ - 1}}{{\ln q}})$内的零点 (因$f'(x) = - \frac{1}{{{x^2}}}(1 + {x^2}{q^x}\ln q)$).
由${x^2}{q^x}\ln q + 1 = 0$, 得$x = \sqrt {\frac{{ - 1}}{{{q^x}\ln q}}} $.
令迭代函数$h(x) = \sqrt {\frac{{ - 1}}{{{q^x}\ln q}}} $, 根据引理3, 只需证明:
① $h(1) > 1$, $h(\frac{{ - 1}}{{\ln q}}) < \frac{{ - 1}}{{\ln q}}$;
②在区间$(1,\frac{{ - 1}}{{\ln q}})$内$h'(x) > 0$, $h''(x)$保持符号.
由
有$h(1) = \sqrt {\frac{{ - 1}}{{q\ln q}}} > \sqrt e > 1$; 由$0 < - \ln q < \frac{1}{e} \Rightarrow \frac{1}{-\ln q} > e$, 有
对任意$x \in (1,\frac{-1}{\ln q})$, 有
不变号.证毕.
由$-\frac{1}{e} < \ln q < 0 $, $-\frac{1}{\ln q} > e $, 知$2 \in (1, -\frac{1}{\ln q})$.对给定的血样阳性概率$ p$($0 < p < 1 - \frac{1}{\sqrt[3]{3}}$), 可取初值$ x_0 = 2 $进行迭代求得$x^*$.
例如, 当$ p = 0.12$时, 初始值取$x_0 = 2$, 迭代公式$x_{n+1} = \sqrt{\frac{-1}{0.88^{x_{_n}} \ln 0.88}} $, 经迭代求得$x^* \approx 3.4976$.于是, 最佳分组$k$值 (设为$k^*$) 应为3或4.
由于
故当$p = 0.12$时$k^{*}$=4.
对于给定的血样阳性概率$p$($0 < p < 1 - \frac{1}{{\sqrt[3]{3}}}$), 表 1给出了经迭代求出的函数
的最小值点$x^{*}$, 以及最佳分组$k$值$k^{*}$, 预期每份血样平均化验次数$f({k^*})$, 平均化验次数降低率$1 - f({k^*})$.为下文得出最佳分组$k$值计算公式, 针对每个$p$值表中第二列列出了对应的${\textstyle{{\rm{1}} \over {\sqrt p }}}$的值.
表 1针对给定的先验概率$p$($0 < p < 1 - \frac{1}{{\sqrt[3]{3}}}$), 用迭代法求出了若干分组化验最佳分组$k$值.可以看出, 当血样呈阳性的概率不大于0.1时, 通过恰当分组实施分组化验可显著减少平均化验次数, 预期平均化验次数降低率达40%以上.
观察表 1中数据并考虑到函数$\varphi (p) = {\textstyle{{\rm{1}} \over {\sqrt p }}}$在区间$(0$, $1 - \frac{1}{{\sqrt[3]{3}}})$上的单调性可以发现, 对于给定的血样阳性概率$p$ ($0 < p < 1 - \frac{1}{{\sqrt[3]{3}}}$), 分组化验最佳分组$k$值呈现一定的规律性.若能揭示出其中的规律 (而不用针对每个具体的血样阳性概率$p$进行迭代), 则无论是对理论研究还是临床实践都将是十分重要的.
分析表中数据可知, 当血样阳性概率$p$在区间$(\frac{1}{9},\frac{1}{4}]$上由小到大变化时, 最佳分组$k$值先是取4后是取3, 对应的$p$值分界点应在0.12与0.13之间.当$p = 0.123$时最佳分组$k$值是4, 而当$p = 0.124$时最佳分组$k$值是3, 二者对应的每份血样平均化验次数相差甚微.据此推测, 介于0.123与0.124之间存在一个$p_1^*$, 当血样阳性概率为$p_1^*$时, 将总体分为4份血样一组和分为3份血样一组对应的平均化验次数相等.
事实上, 由
令$f(3) = f(4)$, 则${q^3} - {q^4} - \frac{1}{{12}} = 0$, 从而${q^4} = {q^3} - {\textstyle{1 \over {12}}}$, 采用迭代格式${q_{n + 1}} = \sqrt[4]{{q_n^3 - {\textstyle{1 \over {12}}}}}$, 初值取${q_0} = 1 - {\textstyle{1 \over 9}} = {\textstyle{8 \over 9}}$, 经迭代求得$q_1^*$$ \approx 0.8761$, 故分界点$p_1^* \approx 0.1239$.
同样, 当血样阳性概率$p$在区间$(\frac{1}{16},\frac{1}{9}]$上由小到大变化时, 最佳分组$k$值先是5然后是4, 由$f(4) = 1 + \frac{1}{4} - {q^4}$, $f(5) = 1 + \frac{1}{5} - {q^5}$, 令$f(4) = f(5)$, 得${q^5} = {q^4} - {\frac{1}{20}}$, 采用迭代格式$q_{n+1} = \sqrt[5]{q_n^4 - \frac{1}{20}}$, 初值取$q_0 = 1 - \frac{1}{16} = \frac{15}{16} $, 迭代求得$q_2^* \approx 0.9344$, 分界点为$p_2^* \approx 0.0656$.
一般情况是, 当血样阳性概率$p$在区间$\left( \frac{1}{(m + 1)^2}, \frac{1}{m^2} \right]$($m \ge 2$为正整数) 上由小到大变化时, 最佳分组$k$值先是取值$m + 2$, 待$p$值达到某一确定概率点${p^*}$(分界点) 后, 最佳分组$k$值为$m + 1$, 由迭代格式
初值取${q_0} = 1 - {\textstyle{1 \over {{{(m + 1)}^2}}}}$, 迭代可求${q^*}$, 分界点${p^*} = 1 - {q^*}$即可确定.
综上, 若令
为区间$(0,1 - \frac{1}{{\sqrt[3]{3}}})$的一个分割, 则分组化验最佳分组$k$值在区间$(0,1 - \frac{1}{{\sqrt[3]{3}}})$上是血样阳性概率$p$的阶梯函数, 在任意子区间$\left( \frac{1}{(m + 1)^2}, \frac{1}{m^2} \right]$($m \ge 2$为正整数) 和区间$(\frac{1}{4},1-\frac{1}{\sqrt[3]{3}})$上函数表达式为
其中$m \ge 2$为正整数, ${p^*} = 1 - {q^*}$, ${q^*}$可由迭代格式
初值取${q_0} = 1 - {\textstyle{1 \over {{{(m + 1)}^2}}}}$迭代求得 (迭代足够次数可使结果达到要求的精度).
本文研究结论表明, 当血样呈阳性的概率不大于0.1时, 通过恰当分组实施分组化验可显著降低平均化验次数, 预期平均化验次数降低率达40%以上, 从而大幅度节约时间, 减少人力 (物力) 成本提高工作效率和社会效益.本文从数理上证明了当血样呈阳性的概率$p$在某一确定范围时分组化验存在最佳分组方案, 针对给定的血样阳性概率$p$给出了最佳分组$k$值的确定方法, 得出了分组化验最佳分组$k$值计算公式.