1、摘 要:车辆检测器是交通管理中重要的数据采集工具,但在实际运用过程中,数据丢失问题往往影响其作用的发挥。本研究旨在建立一个可实用于交通控制中心的车检器缺失数据修补模型,尝试以不同模型来预测并修补车辆检测器缺失的数据,并对比各种模型的修补效果。文中提出了以arima结合模糊时间序列的交通流量预测方法以及使用arima进行短时间实时修补的方法,并获得了不错的效果。关键词:交通流量预测;arima;模糊时间序列;车辆检测器中图分类号:tp274 文献标识码:a 文章编号:2095-1302(2016)06-00-040 引 言车辆检测器是交通管理者掌握道路交通运行状况的重要工具。但是,在实际运用过程
2、中,车辆检测器常因环境、维护、性能等原因发生数据丢失的现象。车辆检测器数据的丢失使得基于其所产生的控制和决策方案产生偏差甚至失效,无法彰显投资车辆检测器的应用价值。车检器数据修补算法是辅助提高车检器检测稳定性与准确性的途径之一。本研究利用时间序列以及模糊时间序列的相关理论,根据交通流运行特征在工作日和假日的差异将车检器数据分成工作日和假日两种模式进行预测分析,使其能够对短时间内缺失的数据进行及时修补。并对比时间序列以及模糊时间序列两种方式进行数据修复的效果差异。1 模型建立数据为西安绕城高速单台车检器2014年全年数据,数据接收频率为每5分钟一次,理论上一天共288条数据记录。1.1 数据预处
3、理数据预处理分为如下几项:(1)首先将数据分为工作日和假日两种模式,再分别以arima、混合模式以及传统平均法进行修补效率的比较。(2)因车检器数据常发生缺漏和异常值,本研究采用6sigma理论对数据进行离群值判定,即先计算同一模式(工作日、假日模式)下同一时刻流量均值,将平均值正负6倍标准差范围外的流量数据判为异常值。(3)本研究将进行arima即时动态修补,以t-1时数据来预测t时的流量,持续验证峰值1小时内12条记录并计算绝对平均误差(mape)。(4)本研究所使用的arima模型由spss18.0建立,模糊时间序列由matlab编写而成。(5)模型以2/3的真实数据来建立(采用车检器2
4、014年19月数据,剩下1012月数据用来验证模式的准确性)。1.2 arima的建立本研究使用spss18.0的arima预测模型,将西安绕城高速车检器2014年1月1日至8月31日的流量数据切分为工作日与假日两种模式,具体研究步骤如下:(1)利用自相关图(acf)来判断是否为平稳数列。(2)图 1所示为工作日模式下交通流量的自相关图,由图可见,滞后阶数为5时,才进入置信界内,表示流量数据并非为一个平稳的时间序列,需要对数据进行差分处理。图 2所示为假日模式下交通流量的自相关图,在其滞后阶数为7时才进入了置信界限内,数据亦需要差分处理。具体操作如下:(1)使用spss18.0中的expert
5、 modeler选出最佳arima(p,d,q)模型,工作日模式下的最佳arima(p,d,q)模型为arima(0,1,1),假日模式下的最佳模型是arima(1,1,1)。(2)检查模型的r2与mape值是否能够充分解释变异数,bic值是否最低并且残差是否符合白噪声的假设。依照统计学的衡量标准,mape值小于20%时为优良的修补模型,而模型的bic值则越小越好;r2表示模型的解释程度,r2值越高则解释变数的能力越高,表1所列为工作日模式的挑选准则,可以看出由expert modeler所得的模型四项准则皆为最优,比较的模型为符合残差接收白噪声假设的模型,其mape值为16.91%(越低越好
6、),是三个模型里最好的,r2=0.938是最高的,代表可解释变数的程度最高,bic值越小表示模型为最佳估计模型,其bic值=4.92为三个模型中最低。而表2所示为假日模式的挑选准则,同样是由expert modeler挑选出最适模型为最优模型,arima(1,1,1)各个适合度指标皆为最适,也都有符合残差接收白噪声,由此可知,可直接由expert modeler选取arima的最适模型,不需要采用传统的方式将所有模型进行测试。将建立好的工作日与假日流量arima模型,选择输出一个完整日的流量数据来进行实际验证。工作日模式下arima预测结果如图3所示。假日模式下arima预测结果如图4所示。1
7、.3 结合模糊时间序列的arima模型首先建立一个将max-min简化的模糊时间序列模型,以车检器数据中9月1日17:00至19:00每5 min流量为例,预测一个小时的流量数据。示例流量数据表如表3所列。(3)将时间分为24个子集合(a1、a2、a24)并计算各个集合的时间隶属度。(4)使用加权平均法进行去模糊化计算。(5)将工作日模式与假日模式下的arima预测值与模糊时间序列的计算结果进行对比。工作日模式下arima的mape值为16.907%,而工作日模式下混合模型的mape值为13.248%,对比可知混合模型效果较好。基于差分平稳化方法,本研究先以arima模型使其收敛,这样能够比单
8、使用arima模型的效果好,而假日混合模型的mape值为10.698%,同样优于假日arima模型的17.145%。可以发现假日模式的改善比工作日模式的改善幅度大,这种现象可以解释为工作日的流量变化较大,为一个双峰m型分布,而假日的流量图形基本为一个单峰分配,变化不剧烈,较符合模糊时间序列的梯度函数形态。工作日混合模式的函数形态如图5所示。假日混合模式的函数形态如图6所示。 传统平均法计算即当发生数据缺漏时,使用当前时刻前两条数据的平均值进行修复。此方法计算简单,但当数据缺失较多时且流量即将到达波峰或波谷时则无法反映出流量变化,仅能输出一个接近平稳的序列。随机选择数据,集中一天工作日与一天假日
9、作平均法的计算,得到了工作日与假日的平均法mape值,结果如表4所示。2 模型预测效果对比未加入数据修正的arima模型预测值如表5所列。由表 5可以发现,混合模型不管是在工作日流量或者是假日流量都表现的比arima模型效果好,依据衡量标准,mape值小于20% 即为优良的修补模型,arima模型与结合了arima与模糊时间序列的混合模型皆为效果可接受的修补模型,与平均法比较,资料修补的效果都优于现在所使用的方法。由图可以发现,假日模式的改善比工作日模式的改善幅度大,是因为工作日的流量变化较大,为一个双峰m型分布,而假日的流量图基本为一个单峰分布,变化相对舒缓,较符合模糊时间序列的梯度函数形态
10、。工作日模式综合比较如图7所示。假日模式综合比较如图8所示。3 数据修补方法3.1 以arima模型进行实时修复为使模拟情境能够接近现实的缺失情况,本研究以西安绕城高速车检器工作日的早高峰前一个小时与早高峰一小时内的流量数据作为修补范围。表5利用前5条数据记录模拟真实数据缺失情况,可以得知修补效果在10条记录内为可接受范围,在资料缺失比较数大于10条记录时,其修补效果会大幅度下降。3.2 以arima模型混合历史数据进行实时修补实际验证发现,如果以待修补时刻前5条历史数据进行基于arima的实时修补,会在第11条左右(即55 min前后)开始大幅衰退,以工作日的尖峰模拟找出可能的数据修复失效转
11、折点,所得结果如表6所列。发现数据修复效能转折点集中在10至12条数据左右,本研究利用此特点,尝试使用不同权重加入历史arima的方式来修正arima实时修补的误差。具体做法为:第一条数据使用0.9arima实时预测值+0.1历史数据的arima预测值;第二条数据使用0.8arima实时预测值+0.2历史资料的arima预测值。以此类推,直到第十条数据记录以后直接使用历史数据的arima来进行预测修补,如下式所示:4 分析与总结研究以arima(0,1,1)作为一个可接受的工作日流量修补模型,因其mape值小于20%,arima(1,1,1)可以作为一个假日流量修补模型。研究结合了arima以
12、及模糊时间序列,提出一个新的混合模型,其数据预测效果在工作日流量修补或是假日流量修补中都比arima和传统平均法要好。本研究试着使用建构好的arima(0,1,1)工作日模型与使用历史前5条数据提出一个即时数据修补模型,用一个相对简单的方式进行实验测试后,初步发现可以提升只使用了前5条数据的即时修补模型,利用逐步增加权重的方式加入以年历史数据构建完成的arima(0,1,1)工作日模型数据,为一个简单可行的修补方法。同时,本研究尚有些不尽完善之处:本研究仅以单一车辆检测器来建立模型。后续研究可考虑以网络或路段来讨论修补问题,也可以考虑建立流量、速度与密度的三大交通流理论要素的修补模型。5 结 语本研究旨在建立一个可用于交通控制中心的数据修补模型,研究尝试以不同模型来预测并修补车辆检测器缺失数据,并对比各种模型的修补效果,提出了以arima结合模糊时间序列的应用方法以及使用arima进行短时间的实时修补,获得了不错的效果。