城市道路交通拥堵预测及持续时间研究.docx
- 文档编号:492932
- 上传时间:2023-04-29
- 格式:DOCX
- 页数:15
- 大小:24.63KB
城市道路交通拥堵预测及持续时间研究.docx
《城市道路交通拥堵预测及持续时间研究.docx》由会员分享,可在线阅读,更多相关《城市道路交通拥堵预测及持续时间研究.docx(15页珍藏版)》请在冰点文库上搜索。
城市道路交通拥堵预测及持续时间研究
熊励陆悦杨淑芬
上海大学管理学院
摘 要:
针对城市道路交通拥堵及持续时间辨识问题,提取平均旅行速度、平均旅行时间、平均延迟时间、早晚高峰、星期数等交通拥堵关键影响因素,构建了基于MapReduce的多元对数线性回归交通拥堵预测模型和基于生存分析的交通拥堵持续时间模型,并利用上海快速路段交通数据集进行模型有效性验证。
试验结果表明,拥堵预测模型预测值与实际值拟合度在0.96以上,能较好地量化道路交通运行拥堵程度;拥堵持续时间模型可以辨识出拥堵分布和持续时间特征,为制定交通拥堵的控制和疏导策略提供指导性建议。
关键词:
城市交通拥堵;MapReduce多元线性回归;拥堵持续时间;生存分析;
收稿日期:
2017-03-06
基金:
上海市教委科研创新项目,项目编号14ZS085
Research on the Urban TrafficCongestion Predication and Time ofDuration
XIONGLiLUYueYANGShu-fen
SchoolofManagement,ShanghaiUniversity;
Abstract:
Inordertoaccuratelypredictthereal-timestatusofurbantrafficcongestionandtimeofduration,inthispaperthekeyfactorsoftrafficcongestionareextractedsuchastravelspeed,travelpeaktime,delaytime,morningpeak,eveningpeakandweekdays,andthe
trafficcongestionpredictionmodelisestablishedbasedonMapReducemultivariatelogarithmlinearregressionandtrafficcongestiondurationmodelthroughsurvivalanalysismethod.TheexperimentsareverifiedbytrafficbigdataofShanghaiexpresswaysections.Theresultsshowthatthefitnessofcongestionpredictionmodelbetweenactualandestimatedvaluesisabove0.96,whichcanbetterquantifythedegreeoftrafficcongestion;besides,thecongestiondurationmodelcanidentifythecharacteristicsoftrafficcongestiondistributionandduration,whichwillprovideguidancefortrafficcontrolandstrategies.
Keyword:
trafficcongestion;MapReducemultivariatelogarithmlinearregression;congestionduration;analysisofsurvival;
Received:
2017-03-06
交通拥堵问题一直困扰着城市的发展,大数据的出现,能让交通拥堵情况变得事先可知,出行者可以根据路况及未来路况做出选择,从而规避拥堵路段。
现阶段交通研究中,交通拥堵预测模型较少结合大数据技术,且较少研究交通拥堵持续时间。
然而用户出行不仅关心哪条道路拥堵,也关心道路拥堵将会持续多久。
因此,本文提出了基于MapReduce的多元对数线性回归模型和基于生存分析的交通拥堵持续时间模型,并利用上海快速路段交通数据集进行模型有效性验证,以期给城市交通拥堵问题分析提供新范式和有效途径。
1相关研究综述
1.1交通拥堵影响因素指标
近年来,国内外学者对交通拥堵评价及预测做了大量研究,主要包括出行时间、路段速度、交通流、交通密度等指标,见表1。
综合上述分析,现有的交通拥堵评价指标大多数单纯地从路网结构、车流量、路段速度等单一要素出发,没有综合考虑交通时间情境要素对城市交通拥堵的影响,使得传统的城市交通拥堵评价模型不能全面、准确反映交通拥堵状况。
1.2交通拥堵预测模型
目前,国内外学者对城市交通拥堵问题的研究主要集中在车联网技术应用、交通流分析和交通拥堵因素研究等方面,并充分利用了通信设备、路段速度、交通流等主要交通指标。
关于判断交通拥堵方面,Andrea等人(2017)使用GPS跟踪器和智能手机识别交通拥堵和事故[1];Yu等人(2016)利用基于密度的道路占用率、步行速度和车速来描述校园道路情况,并使用BP神经网络和马尔科
夫模型来预测道路拥堵,试验准确率高达96%[2];Kong等人(2016)通过浮动车轨迹数据和基于模糊综合评价的粒子群优化算法识别和预测城市交通拥堵[3];
Bauza和Gozalvez(2013)基于车辆与车辆、车辆与基础设施节点间信息交换来检测道路交通拥堵,其拥堵检测概率高达90%以上[4];关于交通拥堵影响因素和评价模型,王妍颖和黄宇(2016)提出从平均旅行时间和自由流旅行时间的比值、确保95%准时到达的走行时间和自由流走行时间的比值、延误、拥堵时间和拥堵路段数五方面构建北京拥堵指标体系[5];Kersys(2015)研究了出行时间、出行需求变化和车流量等指标对交通拥堵评价影响[6];杨柳青等人
(2014)基于拥堵路段数量、交通流量和路网拓扑结构等因素构建了路网拥堵评估模型[7]。
综上所述,分析影响交通拥堵的相关因素,确定交通拥堵评价指标体系,构建交通拥堵预测模型,是解决交通拥堵的重要途径之一。
表1各国交通拥堵指数指标 下载原表
在“互联网+”、大数据驱动下,大数据、云计算等技术正成为解决交通拥堵的有效途径。
邬贺铨院士(2014)指出,将大数据技术应用于智慧交通领域,将对优化交通信息系统、判别交通拥堵原因、预测交通状况产生足够价值[8]。
胡宇舟等人(2014)提出了基于Storm的云计算,用以实时处理轨道交通客流大数据,从而提高了售检票系统效率[9]。
代亮等人(2014)构建了大数据自动化测试框架用以处理交通信息大数据[10]。
Wibisono等人(2016)利用快速增量
树漂移检测模型使交通大数据可视化并预测交通流[11];Yu等人(2015)通过
GPS大数据,基于监督学习方法构建用户出行模式,用以判断交通状况[12]。
Shi和Abdel-Aty(2015)利用探测器搜集交通大数据,运用随机森林和贝叶斯技术实现了实时交通拥堵预测[13]。
覃雄派等人(2012)针对交通数据量大与
结构多元化,探讨了如何用MapReduce技术进行交通大数据分析与并行处理[14]。
综上所述,大数据能有效缓解城市交通拥堵问题,通过研究交通拥堵分布特征与交通拥堵预测模型,预测交通流,从而为用户提供实时交通信息服务,提高道路通行力。
现阶段智慧交通研究中,交通拥堵预测模型较少结合大数据技术,因此,亟待全面探讨大数据背景下交通拥堵问题。
1.3交通拥堵时间研究
国内外学者针对智慧交通拥堵时间主要从时间差别定价、拥堵时间特征、交通评价模型等方面进行研究。
在时间差别定价方面,陈坚等人(2014)针对公共交通出行时间需求不均衡问题,基于双层规划模型构建了公交时间差别定价模型,研究指出实行高峰增加票价同时平峰降低票价的方案有助于缓解交通压力
[15]。
Liu等人(2016)针对用户旅行时间的不确定性,基于可降解交通网络,构建了多层次用户需求时间均衡模型,根据用户弹性需求进行定价[16]。
在拥堵时间特征方面,Ramezani等人(2012)利用马尔科夫链准确获取主干线出行时间分布特征,从而为缓解交通拥堵提供对策建议[17]。
周映雪等人(2013)
构建了基于风险的交通拥堵持续时间模型,以北京交通为例,分析了工作日与周末、早高峰与晚高峰等不同时段的交通拥堵持续时间特征[18]。
在交通评价模型方面,NeilaBhouri等人(2013)以交通流与交通时间为重要因素构建交通影响评价指标,并以巴黎高速公路大数据研究了斜坡计量策略对旅行时间变异性的影响[19]。
梁超等人(2013)将交通时间延误作为重要因素,构建了基于车辆可变折算系数的网络均衡模型[20]。
李晓东等人(2014)构建了城市交通时间最短路径模型,该模型能实现交通信号控制下各车最短时间路径计算,从而达到缓解交通拥堵目的[21]。
综合上述分析,目前对于交通拥堵时间的研究,大多数集中于时间差别定价,
拥堵时间特征,拥堵评价模型等研究,对于拥堵持续时间的特征分布研究较少。
然而,交通拥堵持续时间的长短及分布特征会直接影响市民的出行路线选择。
因此,研究交通拥堵持续时间分布特征,能对出行者路径选择、交通管理者疏导交通提供重要依据。
本文创新性地将MapReduce框架与多元对数线性回归算法结合,构建交通拥堵预测模型,提高交通拥堵预测速度与准确性。
同时创新性地将生存分析理论应用于交通领域,构建基于生存分析的交通拥堵持续时间模型,研究交通拥堵持续时间分布特征,为出行者提供完善的交通信息服务。
2基于MapReduce城市交通拥堵预测模型
本文基于MapReduce技术,结合多元对数线性回归算法,构建了基于
MapReduce的多元对数线性回归的交通拥堵预测模型,用于提高交通拥堵预测模型的准确性与实时性。
2.1交通拥堵模型指标
本文在选取交通拥堵模型指标时考虑了时间情景,选取了平均旅行速度、平均旅行时间、平均延迟时间、早晚高峰、星期数等多元化关键影响因素作为交通拥堵模型指标,其具体定义如下。
(1)平均旅行速度。
平均旅行速度是在同一时段、同一路程内所有机动车辆行车速度平均值,单位为km/h,平均旅行速度是评价道路拥挤程度的重要指标[22],其计算公式如下所示:
式中:
表示平均旅行速度,km/h;L表示行车路程,km;N为每小时通过的机动车数量;t为通过第i辆车所需时间。
(2)平均旅行时间。
平均旅行时间是指在单位路程里所有车辆所耗费的时间平均值,平均旅行时间与交通拥堵程度成负相关关系,平均旅行时间越长,说明交通拥堵越严重,平均旅行时间越短,说明交通越畅通,其公式如下所示:
式中:
为平均旅行时间,h;L表示行车路程,km;N为每小时通过的机动车数量;vi为第i辆车的速度。
(3)平均延迟时间。
平均延迟时间是指某单位路程里,车辆因某些外界因素(恶劣天气、交通事故等)所损失的时间,h。
平均延迟时间能反映交通畅通情况及排队情况,是反映交通拥堵程度的重要指标[23],其计算公式为:
式中:
Tl为平均延时时间;Vt为车辆行驶实际速度;Vn为自由状态即不拥堵状态下车辆行驶速度。
(4)早晚高峰。
受上下班时间段影响,一天内最拥堵时段会集中在早上上班高峰时段与晚上下班高峰时段,且规律性较强。
在本文的研究中,采用上海地方交通法对早晚高峰时段规定,早高峰时段为7:
30~9:
30,晚高峰时段为16:
30~18:
30。
(5)星期数。
星期数主要分为工作日与周末两种,由于出行目的不同,工作日与周末呈现不同交通拥堵分布特征,如工作日交通需求大,交通拥堵频繁,周末由于市民出行需求,其上午高峰时段会比工作日早高峰时段延后。
因此,本文将工作日与周末作为交通拥堵模型指标进行研究。
2.2基于MapReduce的多元对数线性回归模型
当处理大数据时,多元对数线性算法计算量大且复杂,单机计算耗时较多,而将多元对数线性回归模型MapReduce化后,能有效提高运算速度与精确度。
基于此,本文提出基于MapReduce的多元对数线性回归模型,其流程图如图1所示。
图1基于MapReduce的多元对数线性回归模型 下载原图
在该模型中,第一阶段MapReduce主要计算偏回归系数矩阵,每一个工作块对应计算得出一个偏回归系数矩阵,每个Mapper读取一个n×n样本数组,每读一行,运行一次Map函数,并将计算结果输入,直到所有Mapper运行完毕,并将结果以键值对
第二阶段,作业过程与第一阶段类似,进而求得预测值并对其进行验证。
多元对数线性回归模型用于研究因变量(被解释变量)与多个自变量(解释变量)之间的数量问题,并运用该模型进行预测和控制[24]。
若记因变量为y,自变量为x1,x2,…,xm,则该多元对数线性回归模型可表示为:
式中:
b0为常数;bi为偏回归系数,当控制其他变量对因变量的对数线性影响时,表示自变量xi(i=1,2,…,m)对因变量y的对数线性影响程度。
对于n组观测数据(x1,x2,…,xm,yi),(i=1,2,…,m),对数线性回归模型可表示为:
其矩阵形式为lg(y)=xβ+ε,其中,
3基于生存分析的交通拥堵持续时间模型
3.1生存分析基本概念
生存分析目前主要用在医学领域用以通过研究病人康复时间及动物存活时间等明确治疗效果或者药效,其基本概念如表2所示。
3.2生存分析方法
生存分析方法主要有参数法、半参数法及非参数法三种,当分布类型未知时,非参数方法计算效率较高,具体如表3所示。
表2生存分析基本概念下载原表
表3生存分析方法下载原表
3.3基于生存分析的拥堵持续时间模型
遵循上述生存分析基本概念,本文对交通拥堵生存分析进行如下定义。
(1)交通拥堵生存时间是指从交通拥堵发生到交通拥堵结束所持续的时间。
(2)交通拥堵删失数据,交通拥堵持续时间的数据具有删失特征,是指交通拥堵事件比研究开始时间发生早或者研究时间结束后拥堵仍然持续,或因某些因素无法准确记录的不完全数据。
(3)交通拥堵生存函数是s(t),交通拥堵生存函数是指从交通拥堵开始到时间t时拥堵仍存在的样本的概率分布,如式(6)和(7)所示,也称为累积生存函数。
式中:
F(t)表示分布函数;P表示概率;T表示交通拥堵持续时间;f(x)表示T取值为时刻x的概率密度。
当生存概率较低时,生存曲线s(t)较陡峭,当生存概率较高时,生存曲线s(t)较平坦。
(4)交通拥堵危险函数h(t),危险函数是指交通拥堵在时刻t发生后没有消失,但在极小时间段Δt内消失的概率,也叫条件生存概率,如式(8)所示。
累积危险函数曲线由危险函数积分得到,其位置越高,表示在Δt时间内交通拥堵事件结束概率越高。
4试验过程与结果
4.1数据来源与数据定义
本文利用爬虫程序从高德交通信息发布平台、上海交通出行网、百度景区热力图、上海地铁官网、上海市政府数据服务网等多种渠道抓取了上海交通2016年1月17日~2016年1月23日共7d的数据,平均每2min抓取1次,共计50
400条数据,选取南北高架与延安高架交通数据集进行试验,并对原始数据进行初步清洗、处理,删除缺失数据,根据交通拥堵指数、时间属性将从各途径获得的数据进行合并、计算,最终得到7070条数据用于建模、预测及交通拥堵持续时间研究。
针对交通拥堵预测模型,本文利用南北高架鲁班-共和方向的快速路段进行交通拥堵建模与交通拥堵预测,自变量维度为6,选取平均旅行速度、平均旅行时间、平均延迟时间、是否是早高峰、是否是晚高峰、星期数等因素为自变量,其定义如表4所示。
其中,交通拥堵指数是用量化方法表达道路交通运行拥堵程度,是道路交通状态的数字化表达,是以一定范围内各个路段实时采集的平均车速为基本参数,按不同等级道路设施要素和通行能力,加权集成并经过标准化后计算生成的,反映了一定范围内道路的平均车速和人们对道路交通拥堵程度的感受。
交通指数值用介于0~100之间的数值表达,数值越大,表明道路交通越拥堵,数值越小,表明交通越畅通[25],如表5所示。
表4变量关系表 下载原表
表5上海交通拥堵指数分级区间 下载原表
针对交通拥堵持续时间模型,本文选取较为典型的南北高架与延安高架快速路段进行建模与交通拥堵持续时间特征分析,其中南北高架分为共和-蕴川、济阳
-鲁班、鲁班-共和、共和-鲁班、鲁班-济阳与蕴川-共和等6个路段,延安高架分为延安北侧与延安南侧两个路段。
试验数据包括路段名称、日期、时间、交通拥堵指数、平均旅行时间、平均延时时间等属性。
上海交通出行网将交通拥堵状态分为4个等级,其中,根据上海交通出行网对交通拥堵定义,本文根据交通拥堵指数这一指标,将交通拥堵指数大于等于50时,定义为拥堵,记为交
通拥堵事件发生。
在研究工作日与周末交通拥堵持续时间特征时,本文以每个连续拥堵(交通拥堵指数大于等于50)的时间段为一个交通拥堵时间样本,每个交通拥堵时间间隔长度即为样本的取值,即为拥堵时间。
在研究早午晚高峰时段交通拥堵持续时间特征时,以时间段划分,早高峰时间段为7:
30~9:
30,午后时间段为13:
30~15:
30,晚高峰时段为16:
30~18:
30进行研究。
4.2基于MapReduce的多元对数线性回归建模
设定上述变量存在对数线性相关关系,并建立多元对数线性回归交通拥堵预测模型为:
式中:
x1表示平均旅行速度;x2表示平均旅行时间;x3表示平均延迟时间;x4为是否是早高峰,1表示是,0表示不是;x5为是否是晚高峰,1表示是,0表示不是;
x6表示星期数;b0为常数;bi(i=1,2,…,6)为回归系数。
本文将数据集分为70%训练集与30%测试集两部分,利用R语言实现基于
MapReduce的多元对数线性回归算法,得到系数矩阵b:
由此得到初步多元对数线性回归交通拥堵预测模型:
进一步对模型做方差分析和回归系数t检验。
由试验结果可知,该模型残差均方值仅为0.0525,R为0.9688,拟合度为0.969,且模型的p<0.0001,因此,本文回归模型是有意义的。
由分析结果可见,偏回归系数b1,b3.b5的P值均小于0.01,可认为自变量平均旅行速度x1、平均延迟时间x3和是否为晚高峰
x5对因变量交通拥堵指数影响显著,且受平均旅行速度影响最大,b2与b4的P值都大于0.50,可认为平均旅行时间x2对交通拥堵指数没有显著影响,相对于早晚高峰而言,高架路段拥堵程度受早高峰因素影响较小,受晚高峰因素影响较大。
对模型做进一步的分析,对模型做回归诊断,由回归诊断结果可知,该模型具有较好的拟合效果,因此,该城市交通拥堵预测回归模型为:
4.3交通拥堵预测结果
经过上述试验得到基于多元对数回归的交通拥堵模型,利用30%的测试集进行相应试验得到相应的预测值,将其与交通拥堵指数实际值进行对比,得到如图
2所示结果,其中,测试集R=0.9734,拟合度为0.9727。
图2测试集样本拟合度示意 下载原图
为了进一步验证该模型预测精确度,本文对训练集样本、全体样本进行拟合度
分析,其中,训练集样本拟合效果如图3所示,其R=0.9688,拟合度为0.969;全体样本总量拟合效果如图4所示,其R=0.968,拟合度为0.968。
图3训练集样本拟合度 下载原图
图4总体拟合度 下载原图
由图4可以看到本文基于多元对数回归的交通拥堵预测模型所得到的预测值与交通拥堵实际值具有较好的拟合结果。
其中,交通拥堵指数实际值为上海交通出行网提供的交通拥堵指数,以各个路段实时采集的平均车速为基本参数,按不同等级道路设施要素和通行能力,加权集成并经过标准化后计算生成,经过实际检验,能客观地评价交通拥堵。
可见,利用本文提出的多元对数线性回归模型来预测交通拥堵指数是可行有效的。
为了进一步研究上海交通拥堵特征与缓解交通拥堵措施,本文根据试验所得交通拥堵指数值对南北高架交通拥堵进行分析,其工作日与周末交通拥堵指数如图5所示。
图52016年1月份南北高架工作日与周末交通拥堵指数 下载原图
由图5可以看出,总体来看,上海南北高架路段工作日拥堵状况明显比周末严峻。
工作日道路拥堵集中于早晚高峰时段,午后时段交通拥堵情况也较为严重,且有向晚高峰延展趋势。
周末早高峰现象比工作日晚,上午拥堵时段主要从早上10:
00开始,这与人们的生活习惯有很大的关系。
周末高架路段一天中最拥堵时段主要集中在午后时段,一直延展到晚高峰。
4.4基于生存分析的拥堵持续时间预测
由于交通拥堵持续时间分布函数未知,本文采用非参数方法Kaplan-Meier模型获得交通拥堵持续时间的生存函数,其原理为:
假设有n个交通拥堵持续时间样本,持续时间段有k个不同取值,使得t1 式中: nj为tj时刻之前拥有的样本数,即交通拥堵仍然持续的样本量; 为tj时刻的生存概率。 上海高架工作日与周末交通流存在着明显差异,以南北高架与延安高架为例,工作日拥堵状况明显比周末严重,持续时间更长,周末早高峰现象比工作日迟,接近中午时段出行拥堵高峰,且周末晚高峰持续时间明显比工作日长,上海高架工作日与周末生存函数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 城市道路 交通 拥堵 预测 持续时间 研究