Component Data Processing Method Combination Forecast Based on Predictive Validity
房玄骅① FANG Xuan-hua;王艺宁② WANG Yi-ning;刘夕③ LIU Xi
(①安徽大学经济学院,合肥230601;②安徽大学数学科学学院,合肥 230601)
(①Economics School of Anhui University,Hefei 230601,China;②School of Mathematical Sciences,Anhui University,
Hefei 230601,China)
摘要:为提高成分数据时序预测准确性,提出一种以二阶预测有效性作标准的多种数据处理方法的组合预测。选择成分数据的多种数据转化方法,将有约束时序用对数比,中心对数,超球面变换方法转换成无约束时序后,利用ARIMA—ANN模型对转换后无约束时序预测,对结果做反变换,恢复为成分数据得单项预测结果。最后对得到的单项预测结果进行基于二阶预测有效度的加权几何平均组合,得到相对最优的组合预测结果。
Abstract: In order to improve the accuracy of time series prediction of component data, a combined prediction of multiple data processing methods based on second-order prediction validity is proposed. Selecting a variety of data transformation methods for component data,after the constrained time series is transformed into the unconstrained time series by the logarithmic ratio, the central logarithm and the hypersphere transformation method, the ARIMA-ANN model is used to predict the unconstrained time series after the transformation, and the result is inversely transformed to restore the component data to a single prediction. result Finally, the weighted geometric mean combination based on the second-order prediction validity is obtained for the obtained single prediction result, and the relatively optimal combined prediction result is obtained.
关键词:成分数据;组合预测;预测有效度;对数比变换;中心对数变换;超球面变换
Key words: component data;combined prediction;prediction validity;log-ratio transformation;central logarithmic transformation;hypersphere transformation
中图分类号:O221.1 文献标识码:A 文章编号:1006-4311(2019)21-0192-03
0 引言
作为一种广泛运用的数据类型,成分数据有非常重要的作用,往往是整体的一部分,各个成分总为正,定和为1或其他常数[1]。其中一个成分增加,其余成分必减少,这意味着原始成分之间关系的标准统计分析结果会受到虚假效应的影响,所以对于成分数据的处理需严格控制。1986年,Aitchison提出对数变换方法,即基于对数变换将数据转化为无约束的普通数据,在预测后经过反变换得最终预测。之后又出现了几种对数转化的成分数据处理方法,如中心对数变换,对数比变换。此后王惠文又提出球坐标变换的新方法[3],这几种方法被广泛的使用在各个领域的成分数据预测和分析中[4,5,6]。
上述研究中基本只考虑单种模型的使用,而忽略单种模型可能不适合所有数据的可能情况。组合预测方法如文献[7,8]等研究中,通过几种模型的组合,使组合预测的方法能适用于大部分情况,起码相对于单项方法是非劣的。本文基于已有研究,提出基于二阶误差有效度的多种成分数据处理方法单项预测结果的组合预测,以求得到一个更有普适性的精确模型。即在时间序列里,用三种成分数据处理方法对成分数据进行转化,用ARIMA-ANN模型拟合结果再反变换为成分数据。基于预测有效度,对三组预测值进行加权几何平均得到组合预测值。最后运用实例数据实验,比较验证该方法的合理性和有效性。
1 预备知识
首先,成分数据指任意非负的P元向量■式中T为时间,i表第i个成分,x■■表成分i第T时刻的值。对每个成分单独拟合,相当于把维度看为P,导致一系列不符合要求的预测。而三种数据变换方法先将其转化为无约束的普通时序,对其拟合后再经过反变换,得到成分数据的预测值,且满足定和约束。
1.1 中心对数变换
对原始序列■中做下列变换:
■(1)
在预测之后对其进行反变换,得到最终预测结果。
1.2 对数比变换
类似于上一种变换,先对原始序列中的前P-1个成分做变换得[4]:
■(2)
对预测后数据反变换得到各成分最终预测。
1.3 球坐标变换
基于将笛卡尔坐标,将数据变换到超球面的坐标轴上。由于定和约束,使得球半径为一个固定的数值如1。其变换过程中,先对原始序列中的所有x■■做开方变换[3],即■,再将此数据转化为超球面坐标数据,由上式可知,半径R=1。映射方程如下[3]:
■(3)
通过反变换,可得最终预测值。
1.4 ARIMA—ANN预测模型
在本研究中对转换后数据建立ARIMA模型。它的计算步骤可在参考文献[7]中找到。此模型可以很好地对时间序列中的线性部分给出解释,但是却无法对时间序列的非线性部分给出很好的解释,于是我们通过人工神经网络(ANN)的方法来对时间序列ARIMA模型拟合后得到的残差做非线性的拟合。
我们认为某时刻的预测残差与该时刻原始值及其前K-1项有关,以这K个值作为输入,残差作为输出,使用ANN进行拟合。两种方法的拟合值的和作为最终的预测结果,这样就既考虑了线性的部分,又包含了非线性的部分。
2 基于预测有效度的几何平均组合预测模型
定义2.1[8] 若■,其中wj为指数加权向量且有■■成立,则称函数是n维加权几何平均算子。
给与第i个方法一定的权重li,第i种方法得到的T时刻的成分j的预测值为■。那么最终的预测值,■。对每个成分的预测值,根据重要性即权重,可给出成分数据T时刻预测精度定义。
定义 以■作为第i种方法T时刻成分j的相对预测误差时,将■作为成分数据的第i种方法在T时刻的相对预测误差。则■为成分数据的第i种单项预测方法在时刻T的预测精度。
其余的过程与普通时序数据相同,我们称■为第i种单项预测方法在时刻T的一阶预测有效度,同样的我们称■
为第i种单项预测方法在时刻T的二阶预测有效度[8]。以组合预测结果■作为一种预测结果,计算其对应的二阶预测有效度,找到使得二阶预测有效度最大的一组权重li。即:
■
■(4)
3 模型实例求解分析
本文参考国泰安数据,选取五大汽车生产企业中的一汽大众企业每月生产客车,货车,半挂牵引车生产量比例2016年1月到12月份的数据,具体的数据情况如表1所示。
先利用成分数据的三种数据处理方法对原始数据进行转换。三种方法分别将数据转化为3维,2维,2维的数据且该数据不受约束,再用ARIMA先对转化后数据拟合,拟合结果与真实值相比较得到残差。对残差利用类似滑动窗的思想,选用了前2期的真实值作为影响残差的输入项,残差作为输出项,选用ANN进行拟合,并选用两层神经网络进行拟合,将两者的拟合结果进行相加得到最终预测值。对得到的三种方法的数据集进行预测之后,进行反变换为成分数据,得到最终预测如表2所示。
在这认为成分的重要性是相同的,即有w1=w2=w3=1/3,且第i种方法在T时刻的离散概率分布■,即各点服从均匀分布。计算三种方法各个数据转化方法的二阶预测有效度为0.8766,0.8402,0.9026。此结果也可看出,球坐标变换方法无论在一阶还是二阶预测有效度上都是优于前两种方法的。对比真实值,方法3的一阶和二阶预测有效度都比方法1和方法2要高。对三种预测结果进行组合,给与相应的权重,组合得到的最终预测值■。以此求得相应的和,基于预测有效度最大原则,基于(4)式作优化问题。
lingo求得最优权重为:l1=0,l2=0.0361,l3=0.9639,此时二阶预测有效度为0.9088,可知球坐标变换方法对最终组合预测结果的影响较大。对单项方法,可以发现组合预测结果较为准确。因为组合预测方法权重在可能的取值中就包含了单项方法的结果,因此我们可以断定的是该组合起码是非劣的,该方法往往比单项数据转换方法具有更优秀的预测结果的。
参考文献:
[1]Reyment R A. The statistical analysis of compositional data[J]. Chemometrics & Intelligent Laboratory Systems, 1988, 3(4):254-256.
[2]Piepel D, Gregory F. The Statistical Analysis of Compositional Data[J]. Technometrics, 1988, 30(1):120-121.
[3]王惠文,刘强.成分数据预测模型及其在中国产业结构趋势分析中的应用[J].管理评论,2002(5):27-29.
[4]Egozcue J J, Pawlowskyglahn V, Mateufigueras G. Isometric Logratio Transformations for Compositional Data Analysis[J]. Mathematical Geology, 2003, 35(3):279-300.
[5]宁自军.成分数据的预测方法与应用[J].统计与决策, 2001(6):6-7.
[6]Bracci P, Bull S, Grynpas M D. Analysis of compositional bone density data using log ratio transformations[J]. Biometrics, 1998, 54(1):337-349.
[7]刘勇.ARIMA模型在我国能源消费预测中的应用[J].经济经纬,2007,26(5):11-13.
[8]陈华友.基于预测有效度的组合预测模型研究[J].预测,2001,20(3):72-73. |