财政收入是衡量一国政府财力的重要指标, 对财政收入的预测一直都是学者们研究的热点.目前较为常用的预测方法有神经网络、灰色理论和时间序列分析等.然而, 单一预测模型的优缺点十分突出, 它们都有一定的局限性.
近年来, 有学者尝试运用组合模型来实现预测.如赖红松等人运用灰色神经网络组合模型对人口数量进行了预测, 并获得了更为精确的预测效果[1]; 刘明凤等人采用卡尔曼滤波方法将ARMA模型和BP相结合, 提出了一种改进的卡尔曼滤波混合预测模型, 该模型的预测误差大大减小, 预测结果的延迟现象也得到改善[2].
以上两种组合模型有效的发挥了单一模型的长处, 同时避免了单一模型的缺陷.本文尝试选取ARMA模型和BP神经网络, 依据组合预测思想, 构建一个更为有效的财政收入组合预测模型, 然后对组合模型的预测结果进行检验, 以论证组合模型相对于单一模型的预测精确性.
ARMA(p, q)模型简称自回归滑动平均模型, 它由自回归和移动平均两部分构成, 其中p, q分别表示自回归和移动平均部分的阶数, 其一般表达式为
其中$ \phi_{1}, \cdots, \phi_{p}$为自回归系数, $\theta_{1}, \cdots, \theta_{q}$为移动平均系数, $\{\varepsilon\}$是白噪声序列[3].
BP神经网络, 简称误差反向传播神经网络.它由一个输入层、一个或多个隐含层和一个输出层构成, 而每一层则由一些神经元构成, 相邻层各个神经元之间形成完全连接关系, 且同一层内各个神经元之间形成完全不连接关系. $n$个输入信号从输入层进入网络, 经激励函数变换后到达隐层, 再经激励函数变换到达输出层构成$m$个输出信号[4].
在神经网络模型中, 输出$y_{t}$和输入$y_{t-1}, y_{t-2}, \cdots $之间的关系如下:
上式中$ \omega_{ij} (i=1, 2, \cdots, m;j=1, 2, \cdots, n)$是模型的参数, $m$是输入层的节点数, $n$是隐含层节点数[5].
对于一组给定的时间序列$y_{t}$, 现把它分解为线性自相关结构$L_{t}$和非线性残差结构$N_{t} $两部分, 即$y_{t}=L_{t}+N_{t}$.首先, 用ARMA模型对$y_{t}$进行预测, 那么原始序列与ARMA模型预测结果之差为$e_{t}=y_{t}-\hat{L}_{t}$, 显然残差序列$\{e_{t} \}$包含了原始序列中的非线性关系; 接着运用BP神经网络对残差序列$\{e_{t} \}$进行预测, 预测结果为$ \hat{N}_{t}$, 同样$ \hat{N}_{t}$包含了原始序列中的非线性关系; 最后把两种模型的预测结果相加, 就得到了组合模型的最终预测结果$\hat{y} _{t}$, $\hat{y} _{t}=\hat{N}_{t}+\hat{L}_{t}$[6].
不难看出, 利用ARMA模型的线性拟合能力以及BP神经网络的非线性映射能力, 把它们分别应用于原始序列线性和非线性关系的预测, 通过对这两个模型的综合运用, 充分发挥了它们各自的长处, 避免了单一预测模型的不足之处, 从而达到了取长补短、相辅相成的目的.
令$\hat{x}_{i}\{t\}$表示第$i$个预测模型在$t$时刻的预测值, $x\{t\}$表示t时刻的实际值, 那么称$ a_{i}(t)=\frac{|x\{t\}-\hat{x}_{i}\{t\}|}{x\{t\}} $为第$i$个预测模型在$t$时刻的预测精度, 且称$a_{i}(t)=(a_{i}(1), a_{i}(2), \cdots, a_{i}(n))$为第i个预测模型的预测精度向量$(i=1, 2, \cdots, m)$.令$\bar{a}(t) =\min\{a_{1}(t), a_{2}(t), \cdots, a_{m}(t)\}, $ $ \underline{a}(t)=\max\{a_{1}(t), a_{2}(t), \cdots , a_{m}(t)\}$分别为$m$个预测模型在$t$时刻预测精度的最小最大值, 这些值就构成了最优精度向量$\bar{a} =(\bar{a}(1), \bar{a}(2), \cdots, \bar{a}(n)\ )$和最劣精度向量$ \underline{a}=(\underline{a}(1), \underline{a}(2), \cdots, \underline{a}(n)\ )$[7-8].若预测模型越接近最优精度向量, 则说明该模型的预测精度越高; 同理, 若预测模型越接近最劣精度向量, 则说明该模型的预测精度越低.
为了度量预测模型与精度向量的相近程度, 现引用最大最小贴近度理论:
引理 1.1 对于任意两个向量$X=(X_{1} , \cdots, X_{n})$和$Y=(Y_{1}, \cdots, Y_{n})$, 令
称$\Gamma(X, Y)$为向量$X$和$Y$的最大最小贴近度[9].显然, $\Gamma(X, Y)$越大, 向量$X$和$Y$就越接近.这样就可以计算出每个预测模型对应的精度向量与最优最劣精度向量之间的贴近度, 从而只需比较贴近度差值$ \Gamma(a_{i})=\Gamma(\bar{a}, a_{i})-\Gamma(\underline{a}, a_{i})$的大小就可以判定对应预测模型的优劣.
文章选取1950-2012年我国财政收入年度数据作为样本对上述模型进行实证分析, 数据来源于中国统计年鉴.
运用Eviews6.0软件首先对原始数据取对数后的序列X进行平稳性检验, ADF检验值为-6.02, 而$1\% $置信水平下的$t$检验值为-3.67, 前者绝对值大于后者绝对值, 说明序列$X$平稳, 可以进行ARMA模型拟合.然后分别对不同的ARMA$(p, q)$模型进行AIC检验、DW检验和$t$检验.设定检验标准: AIC值越小越好, DW值接近于2, $t$检验值可信度大于$99\% $.比较不同的检验值, 发现ARMA$(2, 1)$模型的各项指标最优.此时, AIC值为-2.97, DW值为1.83, $t$检验值分别为$99.86\% $、$99.99\% $和$99.99\% $, 均大于$99\% $, 故选用ARMA(2, 1) 模型预测财政收入.采用非线性最小二乘法(NLS)估计ARMA(2, 1) 模型的参数, 结果如图 1所示:
由图 1可知对序列$X$拟合的函数表达式[10]为
把序列X与ARMA模型预测结果相减就得到了残差序列$\{e_{t}\}$, 在Matlab R2010a软件上利用BP神经网络对该残差序列进行拟合.神经网络输入层和输出层的神经元个数分别为5和1, 神经网络的总样本量为61, 把1952-2000年的样本作为训练集, 2001-2012年的样本作为测试集, 采用单隐层的BP神经网络(5-14-1), 即隐含层神经元个数为14[11]. BP网络参数设置为:系统精度为0.0001, 最大训练次数为10000, 步长为0.01.经过6082次训练, 结果如图 2所示.
把ARMA模型的预测结果与BP神经网络的预测结果相加, 就得到了ARMA-BP神经网络组合模型的最终预测结果. 表 1给出了2001-2012年财政收入对应的ARMA模型、BP神经网络和组合模型预测结果.
根据表 1的预测结果, 运用公式(3.1) 计算出ARMA模型、BP神经网络以及ARMA-BP神经网络组合模型对应的精度向量与最优最劣精度向量的贴近度差值分别为: $\Gamma (a_{1})=-0.908591$, $\Gamma (a_{2})=0.405035$, $\Gamma (a_{3})=0.820389$.由于$\Gamma (a_{3})>\Gamma (a_{2})>\Gamma (a_{1})$, 可以认为ARMA-BP神经网络组合模型是预测财政收入的有效方法, 它的预测精度优于单一的ARMA模型和BP神经网络, 而BP神经网络的预测精度优于ARMA模型.
由于组合预测的思想方法具有一定的普适性, 该结果对其它领域的预测研究具有一定的借鉴意义, 我们可以尝试构建基于灰色理论、神经网络、时间序列和回归分析等不同预测方法的组合模型并对其进行深入研究.另外, 贴近度法是一种比较新颖的评价方法, 它针对不同的预测模型, 利用贴近度理论把预测结果定量化, 这使得模型的评价问题变得简单明了.
文章着重于运用ARMA-BP神经网络组合模型来预测财政收入时间序列, 该组合模型充分发挥了单一模型的长处, 同时避免了单一模型的缺陷.实证分析也表明组合模型的预测精度优于单一模型, 且BP神经网络的预测精度优于ARMA模型.但是由于BP神经网络的理论体系还不太完善, 参数的确定主要借鉴一些经验方法, 导致预测结果充满了随机性.因此, 还需要对BP神经网络理论体系做进一步的学习和探究[13], 以便改进组合预测模型.