书签分享收藏举报版权申诉 / 33

立即下载加入VIP,免费下载

当前位置：首页 > 自然科学 > 天文地理 > 均值聚类方法在交通状态评价中的应用.docx

均值聚类方法在交通状态评价中的应用.docx

文档编号：13338459
上传时间：2023-06-13
格式：DOCX
页数：33
大小：106.04KB

《均值聚类方法在交通状态评价中的应用.docx》由会员分享，可在线阅读，更多相关《均值聚类方法在交通状态评价中的应用.docx（33页珍藏版）》请在冰点文库上搜索。

均值聚类方法在交通状态评价中的应用.docx

均值聚类方法在交通状态评价中的应用

摘要

在城市化进程不断加快，机动车占有率逐步增加的背景下，城市道路交通拥堵已成为一个世界级难题，成为阻碍城市发展的一个重要因素。

为有效缓解城市道路交通拥堵，制定和实施有针对性的对策、手段和措施，需要对交通拥堵的状态有较为准确的判断，因此研究和建立科学的交通状态评价体系非常必要。

本文利用K均值聚类算法对城市路网交通状态判别进行了研究，首先根据交通信息数据计算了聚类中心位置，并判别了聚类中心的交通状态，利用最小距离分类方法对路段的交通状态进行了评价。

仿真结果表明，将该方法应有于交通状态判别是可行的。

关键词交通拥堵；交通状态评价；K均值聚类；聚类中心；最小距离

Abstract

Inacceleratingtheprocessofcity,motorvehicleoccupancyrateincreasedgraduallyinthecontextofcity,trafficcongestionhasbecomeaproblemintheworld,becomeoneoftheimportantfactorshinderingthedevelopmentofthecity.Toalleviatethecitytrafficcongestion,theformulationandimplementationofthemeasures,meansandmeasures,theneedfortrafficcongestionstatehaveaccuratejudgment,thereforetostudyandestablishascientificevaluationsystemoftrafficconditionisveryimportant.

InthispaperKmeansclusteringalgorithmisusedtocalculatetheclusteringcenter.Andthetrafficstateoftheseclusteringcentersisidentified.Thentheminimumdistanceisusedtoclassifythetrafficstate.ThesimulationresultsshowthatitisfeasibletouseKmeansclusteringalgorithmtoclassifythetrafficstate.

KeywordsTrafficcongestionTrafficstateevaluationKmeanscluster

ClusteringcenterMinimumdistance

摘要I

AbstractII

第1章绪论1

1.1课题背景1

1.2国内外研究现状1

1.3本文研究主要内容2

1.4本文章节安排2

第2章交通状态3

2.1交通状态分类3

2.2常用的交通状态指标3

2.3交通状态指标设计4

2.3.1交通状态指标设计原则4

2.3.2交通状态指标的选取5

2.4交通状态的评价方法5

2.5本章小结8

第3章K均值聚类9

3.1K均值聚类概述9

3.2K均值聚类原理9

3.2.1K均值聚类算法的工作原理9

3.2.2K均值聚类算法的一般步骤9

3.2.3K均值聚类存在的问题10

3.3本章小结11

第4章VISSIM仿真模型12

4.1仿真模型概述12

4.2仿真条件设置12

4.3仿真数据13

4.4本章小结13

第5章基于K均值聚类的交通状态评价14

5.1Matlab聚类分析14

5.2交通状态的确定14

5.3交通状态评价15

5.4实验结果分析16

5.5本章小结16

结论17

参考文献18

致谢19

附录20

第1章绪论

1.1课题背景

交通是衡量城市进步与现代化进程的重要指标，是城市生活的命脉，居民的日常大大小小的事物都离不开交通。

交通问题同时也是是一个世界性的难题，开国以来我国国民经济不断快速增长，城市化进程加快，但令人担忧的是我国同几十年前的西方国家一样，发生了人口增长过快、交通拥堵、环境污染、住宅空间贫乏等问题，而且问题越来越严重，尤其是在我国的大中城市。

我国对于交通状态评价的研究比较晚，目前正处在高速发展时期，目前的研究体系还不是很完善，需要各领域专家学者的共同研究，本文旨在评价交通状态，为交通管理部门提供决策支持。

1.2国内外研究现状

在我国城市交通拥堵正成为一个普遍的社会现象，主要原因是由于经济的高速发展，城市的机动车保有量不断增长，在大城市交通拥堵问题越来越明显，交通拥堵问题己经影响到城市机能的正常运作以及城市的可持续发展，交通拥堵会增加运输成本和。

交通拥堵会影响到到社会的功能，会给我国经济发展带来负面影响，严重时还可能阻碍城市的发展，进而导致城市的生存环境不断恶化。

交通拥挤最根本的影响是增加了居民的出行时间和出行成本。

出行成本会妨碍居民的日常活动，影响居民的工作和生活效率，进而影响人们的生活质量，造成不必要的损失。

交通拥挤也会引发交通事故，反过来交通事故的增多又会增加交通拥堵的程度，这样的恶性循环会增加城市交通系统的负荷。

城市环境的不断恶化很大程度上源自交通领域，而交通拥堵首当其冲。

在机动车迅猛增长的背景下，环境也在不断恶化。

从伦敦20世纪90年代的检测报告可以看出，汽车尾气排放的氮氧化物占据74%。

交通拥挤导致车辆只能在低速状态行驶，低俗行驶又会引发频繁的停车和启动，这样不仅增加了能源消耗，同时也引发了噪声污染，更重要的是造成空气污染。

分析英国SYSTRA公司对发达国家大城市交通状况可知，交通拥堵造成的经济损失约占国民生产总值的2%，同时交通拥堵引发的噪声、大气污染等又会造成额外的损失，可见，解决交通拥堵问题刻不容缓。

要解决交通拥堵问题，不能单纯地增加道路基础设施建设、扩大路网规模来满足不断增长的交通需求量，必须加强交通拥挤管理。

城市交通拥挤管理的目的是引导交通流在路网上合理均匀分布，及时预测和判别交通状态，在发生拥挤的情况下进行有效快速的疏导。

在过去的数十年间，不同领域的国内外专家学者针对交通拥挤管理问题做了大量有益的探索，在分析交通拥挤形成的机理和寻找解决交通拥挤问题的途径上进行大量的研究。

要解决交通问题，对交通状态的评价是一个主要环节，本文对交通状态的评价做了研究，利用目前广泛使用的K均值聚类算法做了分析。

1.3本文研究主要内容

本文主要研究交通状态的评价，利用K均值聚类算法实现了对VISSIM仿真数据的分类，根据实时数据组成的向量到聚类中心向量的距离向量，可以确定实时数据的交通状态。

1.4本文章节安排

本文共分为五章。

第一章综述了交通状态评价的研究背景和发展现状；第二章介绍了交通状态的分类情况以及交通状态指标的选取过程；第三章介绍了K均值聚类算法的基本原理；第四章介绍了交通仿真软件VISSIM以及仿真的详细流程；第五章是核心，介绍了交通状态评价的详细流程。

第2章交通状态

2.1交通状态分类

交通状态定义为交通流的总体运行状况，表征了交通流运行时的拥挤程度，同时也是各种交通管理与控制的基础。

按照国际上通行的分类方法，将交通状态划分为四个级别，即畅通、正常、拥挤和堵塞四种状态。

2.2常用的交通状态指标

世界各国都在着手研究城市交通拥堵问题，本文对国内外研究成果进行了的分析说明，为交通拥堵模糊评价模型的建立做理论基础。

国外的研究对我国交通拥堵问题的缓解有现实指导意义，国外的交通管理部门和研究机构研究交通问题比较早，尤其是美国、日本、欧洲等国家，美国最早开展交通拥堵状态评价研究，建立了相当完善的交通拥堵评价体系，欧洲和日本起步也较早，一些研究成功也得到世界范围内的借鉴与引用，此外其他国家也有一些值得学习的评价标准，对我国交通问题的研究具有深刻的指导意义，尤其是美国的畅通性研究报告交通拥堵评价等系统。

国外在交通拥堵问题上的研究本文做了以下说明：

（1）道路拥堵指数

1994年德州交通运输协会定义了道路交通拥堵指数这个概念来评价城市道路拥堵水平。

道路拥堵指数定义为：

每公里平均每日交通量的加权平均数（包括主干路，快速路和高速公路）。

已广泛应用于美国各大城市。

（2）出行时间指标

2006年美国华盛顿州交通运输部发布的交通拥堵报告中，第一次用平均高峰出行时间作为交通拥堵评价指标，出行高峰时间是一个非常重要的指标，居民在日常出行时会参考此指标，平均高峰出行时间为在高峰期间的平均出行时间。

（3）仿真系统

在实际控制系统和控制策略的开发上最主要的是TRANSYT和SCOOT系统。

TRANSYT交通网络研究工具是英国交通与道路研究所于1966年开发的脱机优化网络信号配时程序，之后经不断改进和完善，己成为世界各国应用最普遍的协调配时工具之一。

TRANSYT在对各项配时参数的优选过程中，对每一种配时方案均估算车辆排队可能出现的最大值，系统考虑到了某些个别连线，尤其是短连线在排队长度超过一定的限值后，排队队尾可能上溯到上游交叉口致使上游堵死的情况。

TRANSYT允许用户对每条连线设置一个排队长度限值，在预计排队长度超过规定限值时，利用“惩罚系数”对配时方案进行调节。

英国交通与道路研究所于1973年开始研究和开发的协调控制系统，1979年正式投入使用SCOOT的功能之一即是限值交通向敏感地区流动，以便防止该地区受阻车队回溯致使交叉口堵塞这种情况的发生，这种方法称为闸门控制。

SC00T系统检测器的布设也充分考虑了可能出现的最大排队长度位置。

为了实现闸门控制，SCOOT能够修改相关交叉口的信号配时，这些路口可能离敏感地区较远甚至可能在另外的子区。

闸门逻辑定义了一条或多条的瓶颈连线以及闸门连线，当瓶颈连线的车辆排队达到一定饱和度时，作为储存车队的闸门连线的绿灯时间将减少，以缓解瓶颈连线的交通压力。

（4）服务水平

美国在1985年道路通行能力手册中首次提出道路服务水平，指出服务水平是一个评价道路运行状况的指标，反映机动车驾驶员对所处交通流中的总体感觉。

各国道路服务等级的分类不一样，一般分为3～6个等级。

日本定义了交通饱和度，饱和度为交通流量与设计通行能力的比值，日本根据此将交叉口的服务水平划分为3个等级；前苏联根据速度系数将交叉口服务水平划分为四个等级，美国则将服务水平划分为6个等级。

2.3交通状态指标设计

2.3.1交通状态指标设计原则

交通状态指标的选取具有重要意义，选取不同的指标会有不同的结果，由于指标选取的主观性，不同的人在不同的环境下选取的指标可能不同，从而得出不同的结果，参考相关标准，交通状态评价指标的设计必须遵循下列原则。

（1）科学性原则

交通状态指标的选取要采用科学的方法并理论联系实际，选取交通状态指标时要有科学的理论作为引导，使在理论上有依据，指标要客观的描述对象，也就要抓住最实质、富有代表性的东西。

（2）系统优化原则

评价对象必须用若干指标进行衡量，这些指标是互相联系和互相制约的。

有的指标之间有横向联系，反映不同侧面的相互制约关系；有的指标之间有纵向关系，反映不同层次之间的包含关系。

同时，同层次指标之间尽可能的界限分明，避免相互有内在联系的若干组、若干层次的指标体系，体现出很强的系统性。

1、指标数量的多少及其体系的结构形式以系统优化为原则，即以较少的指标（数量较少，层次较少）较全面系统的反映评价对象的内容，既要避免指标体系过于庞杂，又要避免单因素选择，追求的是评价指标体系的总体最优或满意。

2、评价指标体系要统筹兼顾各方面的关系，由于同层次指标之间存在制约关系，在设计指标体系时，应该兼顾到各方面的指标。

（3）通用可比原则

通用可比性值得是不同时间内不同对象的对比，包括横向以及纵向比较。

横向比较是为了找出相同点将不同对象进行比较，而纵向比较表示单个对象某个时间与另外一个时间做比较。

（4）实用性原则

实用性原则主要指实用性、可行性和可操作性。

指标要简单有代表性，使用的方法不要过于复杂，指标的相关数据要容易获取，同时还要保证数据的准确性，在过程中要把关严谨，可靠性要加以控制。

2.3.2交通状态指标的选取

由于本文的数据是VISSIM软件仿真生成的，交通状态指标应选取VISSIM软件可以仿真出来的参数，因此本文选取了平均速度、拥堵系数和停车时间比例三个交通状态指标。

（1）平均速度

车速包括地点车速、行驶车速、区间车速和设计车速。

地点车速指车辆驶过道路断面的瞬时速度；行驶车速指车辆驶过某路段的长度与行驶时间之比。

在公共交通业务中，又叫技术速度；区间车速指车辆驶过某段路程的长度与所用的总时间（包括中途停车损失在内，但不包括客货运车辆在起点和终点的掉头时间）之比。

它与行驶速度一起，是评价道路行车通畅程度与估计行车延误的重要资料；设计车速是指在道路、交通、气候条件良好的情况下仅受道路设计特点控制时所保持的最大安全车速，是设计道路线形元素最小尺寸的依据[1]。

本文的平均速度指时间平均速度，即车辆通过某道路断面时，观测时间内地点车速观测值的算术平均值。

平均速度v的计算方法如下，其中

表示第i辆车的地点车速。

（2-1）

（2）拥堵系数

拥堵系数CI[2]

（2-2）

式中，T为路段实际旅行时间，T0为自由流时路段的理想旅行时间。

CI为与路径长度、几何结构、交叉口控制、通行能力等交通设施特性无关的标量。

CI取值大于等于零。

（3）停车时间比例

停车时间比例PST

（2-3）

式中，

为探测车辆在行进过程中的静止或速度小于3km/h的时间；T为整个旅行时间。

2.4交通状态的评价方法

交通状态的评价方法及指标较多，如采用模糊评价，层次分析法等确定拥挤度等，一般将交通流量，占有率，行程速度，行程时间和延误确定为交通状态的主要衡量指标。

（1）最小距离分类[3]

采用最小距离分类的方法进行路段交通状态分类。

主要思想是将已有样本按先验知识聚合为若干类T={C1,C2,…,Cn}，并计算出各类的中心Z={Z1,Z2,…,Zn

}。

对给定的输入样本x，计算出与距离最近的Zi，则将x标记为第i类。

最小距离分类器的构造过程就是把训练数据对象分为几个类，计算出每个类的中心。

其主要是根据交通流数据，通过聚类分析计算每个状态的中心，然后以某个路段的数据为新样本数据，采用最小距离分类方法进行该路段的状态判别和每个状态类的临界值评估。

（2）流量-占有率法

可以通过占有率和流量对交通状态进行划分。

假设流量和占有率组成复平面。

流量是虚轴用v表示，占有率是实轴用o表示，那么平面上点（o,v）的相位角a的正切可以表示为：

（2-4）

因此可以根据相位角正切的值对交通状态进行划分。

理论上相位角a可以接近和达到900，这时占有率极小接近于零，流量也不大，但速度很大，为自由流速度交通处于绝对畅通状态。

另一方面相位角a可以等于

00，这时占有率很大趋于道路所允许的最大占有率，而流量却等于0，交通处于绝对堵塞状态，两种极限状态在平时很少出现，只有在占有率达到一定大小时，交通状态才能实现从畅通到拥挤之间的转变。

因此相位角a包括了所有交通状态并且在各种道路交通条件下都适用。

计算交通阈值时应排除极限交通状态数据点。

正常交通状态的速度分布应服从正态或对数正态分布，而交通状态的速度分布比较散乱，相位角a的分布也应该具有此特点，由此可以确定交通状态的阈值。

具体算法如下：

在历史数据库中，首先排除绝对畅通状态的交通点，根据相位角大小按升序进行排序，从最小值开始到最大值选择全部样本点，拟合正态或对数正态分布，计算拟合统计量，然后从第二个最小值开始到最大值选择样本点,拟合正态或对数正态分布，计算拟合统计量，依次类推并比较拟合统计量，拟合统计量达到最小值的点即为最佳交通状态分隔点[4]。

（3）密度[5]

针对城市快速路，将交通状态按照密度可以划分为以下三种。

畅通：

即为自由流状态，自由流的最大密度为22veh/km。

拥挤：

即为谐动流和同步流状态，密度范围为22veh/km-120veh/km。

阻塞：

流量大幅度下降，并且车流会出现一定时间的停顿。

其临界密度120veh/km。

（4）模糊C均值聚类算法

模糊C均值聚类是一种重要数据分析和建模的方法，在模式识别、图像处理以及模糊推理等多个科学领域得到广范的应用，该算法将多个数据点分成特定数目的类，使用隶属度这个定义来表示数据点属于聚类的程度，模糊C均值聚类算法会算出每组的各自的聚类中心，同时把N个向量分为C个模糊组，从而使得目标函数达到最小值，从而实现算法相关过程。

输入的参数有车道号、流量、速度、占有率和大车数。

利模糊C均值聚类算法求得各种状态的聚类中心，以此进行状态的判断[6]。

（5）速度[7]

交通状态的划分与速度的关系最为紧密，单一凭速度可以把交通状态分为三类：

对快速路的交通状态的判断也根据路段平均行程车速划分为3个级别：

畅通：

该路段车辆平均密度小，行程中能够自由操控，平均行程车速高于45km/h。

拥挤：

该路段平均密度较高，行程中被动的加减速频繁，平均行程车速低于45km/h，高于20km/h。

阻塞：

该路段车辆平均密度高，行程中有较长时间的停车等候，平均行程车速低于20km/h。

对主干路的交通状态的判断也根据路段平均行程车速划分为3个级别：

畅通：

该路段平均行程车速高于30km/h。

拥挤：

该路段平均行程车速低于30km/h，高于15km/h。

阻塞：

该路段平均行程车速低于15km/h，车辆几乎不能前行。

速度的计算公式如式（2-5），其中S为特定道路区间长度，

为第i辆车的行程车速，n为通过的车辆数。

T为通过该区间所有车辆的平均行程时间。

（2-5）

（6）时间占有率[8]

将交通状态划分为畅通、缓慢和拥挤3个状态，根据对以往交通状态划分阈值的综合评价，确定了基于时间占有率的交通状态划分阈值表，如表2-1所示。

表2-1基于占有率的交通状态划分阈值表

交通状态

畅通

缓慢

拥挤

快速路

<23

（23,39）

>=39

主干路

<18

（18,30）

>=30

（7）流量

根据交通流理论，流量与速度的关系如图2-1所示，可以看出同一流量可以对应不同的交通状态，单一的流量不能作为对交通状态的划分。

图2-1流量与速度关系图

2.5本章小结

本章介绍了交通状态的分类情况，交通状态评价指标的选取过程以及交通状态的评价方法，为下文的研究分析做铺垫。

第3章K均值聚类

3.1K均值聚类概述

聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程，聚类就是一种发现这种内在结构的技术，聚类技术经常被成为无监督学习。

K均值聚类是最著名的划分聚类算法，是1967年由J.B.MacQueen提出来的，目前广泛应用于科学和工业等相关领域。

由于简洁和效率使得他成为所有聚类算法中最广泛使用的。

K指聚类的数量，也就是指聚类中心的个数，K可以自由指定，但是不能大于数据类的个数，给定一个数据集合，K均值聚类算法会根据距离函数反复地把数据集合分类到K个聚类中。

3.2K均值聚类原理

3.2.1K均值聚类算法的工作原理

K均值聚类算法的工作原理：

首先随机从给定的数据集合里面选取K个点作为初始聚类中心，然后计算每个对象到聚类中心的聚类，根据最小距离原则，将对象划分到距离它最近的聚类中心所处的类，当对象全部被分配时，聚类中心会根据聚类中现有的对象进行重新计算，当相邻两次的聚类中心都没有变化时，说明聚类的准则函数达到收敛条件。

达到收敛的过程是一个不断重复的过程，直到符合某个设定的终止条件。

终止条件可以为：

没有对象被重新分配；聚类中心不再发生变化；误差达到设定的精度或者误差的平方和局部最小。

3.2.2K均值聚类算法的一般步骤

K均值聚类算法的一般步骤如下：

（1）从N个数据集合中随机选取K个对象作为初始聚类中心，K可以自由设定；

（2）根据最小距对相应对象进行划分，也就是说将需要分类的样本按照最小距离原则分配给K个聚类中心；

（3）重新计算每个有变化聚类的均值，也就是说重新计算更新聚类中心；

（4）重复迭代运算直到算法收敛，如果没有达到要求，返回

（2）到（3）步骤直到每个聚类不再发生变化。

计算结束。

K均值聚类算法流程如图3-1所示。

图3-1K均值聚类算法流程图

3.2.3K均值聚类存在的问题

K均值聚类算法的优点主要表现在易于用来处理大量数据，当类之间有很明显的分别时，聚类效果非常好，而且算法的原理简单，实现步骤并不复杂，处理速度快，得到广泛的应用，但同时也存在一些问题，K均值聚类算法的一些不足限制了K均值聚类算法理论的实用性与发展，在今后的学习中值得注意。

K均值聚类的问题主要存在以下几点：

（1）K均值聚类算法对初始中心点的选取非常敏感，算法易陷入局部最优解。

K均值聚类算法的K个初始聚类中心是完全按照随机的原则选取的，这导致聚类结果的波动范围较大，稳定性较差。

（2）K均值聚类算法对噪声数据和孤立点数据较为敏感。

（3）K值是用户自己确定的，而这个确定又没有相关的标准，很多时候K值是无法估算的，在实际应用中，对于给定的数据集合要分成多少类这个问题，只能参考相关领域的相关标准。

（4）K均值聚类算法需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。

如果初始值选择的不好，有可能无法达到预期的效果，也就是说初始聚类中心的选择对聚类结果有较大的影响。

目前广泛使用遗传算法来解决此问题。

（5）K均值聚类算法需要不断更新聚类中心，直到达到设定的迭代次数或者精度要求，当数据量很大时，算法所花的时间非常多，需要对相关程序进行不断的优化改进，由于K均值聚类的随机性，如何提高算法的收敛速度是专家学者研究的主要问题。

3.3本章小结

本章介绍了K均值聚类算法的发展概况，基本原理以及算法的具体实现步骤，同时对了K均值聚类算法的优缺点做了简要分析，同时也提出了简单的解决方法。

第4章VISSIM仿真模型

4.1仿真模型概述

数据收集是进行研究基本而关键的一步，数据的质量对研究结果有着重要的影响。

本文利用仿真软件VISSIM获得这些数据。

VISSIM进入中国已经有10多年的时间了，在教学实验和工程应用过程中逐步获得了业内同行的认可与好评，VISSIM是世界范围内应用最广泛的微观交通仿真系统。

VISSIM已经成为模拟软件的标准，其强大的功能保证了VISSIM在同类软件中的优势地位。

本文采用微观交通流仿真技术实现移动交通流检测技术交通拥堵特征量的标定，即首先以平均速度、占有率和交通延误三项传统交通拥堵指标为基准，通过改变流量输入在仿真网络中模拟各种交通拥堵状况，进而归纳出基于探测车技术的交通状态特征量阈值，进而可以定义平均速度、拥堵系数及停车时间比例三个交通状态的隶属度函数从而可以定义K均值聚类程序计算出来的聚类中心的交通状态，为后续的交通状态评价做基础。

4.2仿真条件设置

选取VISSIM中的标准城市道路交通环境仿真实例，如图4-1所示。

评估路段为单向2车道（下游交叉口处为3车道），上游和下游均为信号交叉口，下游交叉口信号周期为99秒，绿信比为0.616；路段的自由流速为60公里/小时，路段长度3