用出租车GPS数据分析深圳市道路交通情况.docx
- 文档编号:3871024
- 上传时间:2023-05-06
- 格式:DOCX
- 页数:36
- 大小:570.70KB
用出租车GPS数据分析深圳市道路交通情况.docx
《用出租车GPS数据分析深圳市道路交通情况.docx》由会员分享,可在线阅读,更多相关《用出租车GPS数据分析深圳市道路交通情况.docx(36页珍藏版)》请在冰点文库上搜索。
用出租车GPS数据分析深圳市道路交通情况
用出租车GPS数据分析深圳道路交通情况
摘要
随着城市经济的发展,城市交通量不断增大,出租车通过安装GPS终端,将交通信息反馈给管理中心,为城市交通进行合理的规划做出了贡献。
本文利用深圳市出租车GPS数据,解决了交通小区的划分,OD时空分布的计算和预测等问题。
针对问题一,由于数据量庞大,本文选取2011/4/19一天的数据进行处理。
选取车辆状态status从0变为1,从1变为0对应的坐标分别作为出租车载客的起讫点,对数据进行筛选。
根据筛选后的数据,利用出租车起讫点的密集程度用基于密度的聚类算法—DBSCAN聚类进行交通小区的划分,得到划分图。
针对起讫点过于密集且没有进行划分的区域,结合深圳市交通地图,采用K-Means空间聚类对这些地区进行细分,最后将深圳市划分为A-K等11个交通小区,划分结果见图6,对比深圳市行交通地图发现本文划分的小区与其大致吻合。
本文通过计算小区内各点经纬度的平均值作为小区的坐标。
如A区坐标:
(114.23,22.56)。
针对问题二,本文用OD矩阵表示OD时空分布,选取2011/4/19,7:
40时刻做具体计算说明。
首先计算出该时刻下,车辆状态status为1,即出租车重载或者开始载人的地点与各小区坐标的马氏距离,选取马氏距离较小的小区作为载客出租车起点的所属小区,追踪载客出租车的讫点,用同样的方法计算出讫点所属小区。
对到达每个小区的车次进行累加求和,即可得到该时刻各小区之间的交通量,即OD时空分布。
例如7:
40从E区前往K区的人数为130。
用同样方法可以计算出任意时刻载客出租车的OD时空分布。
针对问题三,首先建立居民出行选择出租车作为交通工具的概率随小区间距离变化的隶属度函数,计算出各小区之间居民选择出租车来往的概率。
然后挑选出居民出行特征明显的五个时刻:
1:
20,7:
40,12:
30,17:
30,21:
30,分别计算载客出租车的OD时空分布,之后根据各小区之间出租车通行的概率求解出居民出行的OD时空分布。
最后统计其他部分时刻的居民出行总量,得到2011/4/19一天的居民出行量随时间的变化曲线,得出早上8点左右和下午6点左右是居民出行的高峰期。
在此基础上,基于信息熵对居民出行分布的均衡性进行了分析,得出夜间和午间居民出行相对均衡。
针对问题四,本文设定路口、路段车辆的平均行驶速度分别小于10km/h、20km/h时,认为拥堵。
对载客出租车的行驶方向进行分析,确定出路口和路段位置。
将2011/4/19除去居民出行较少的时间段21:
00-7:
00的其余时间按两个小时为间隔,划分为7个时间段。
分别计算出各个时间段内,行驶在同一路段或路口所有载客出租车的平均速度,按照拥堵标准确定出各个时间段得拥堵路段和路口,得到拥堵图。
通过分析7个拥堵图发现,大量路口和路段在7:
00-9:
00和17:
00-19:
00处于十分拥堵的状态,在11:
00-13:
00和19:
00-21:
00处于拥挤的路口和路段相对较少,其他时间基本没有出现拥堵情况。
关键词:
DBSCAN聚类K-MeansOD矩阵隶属度函数信息熵
一、问题重述
各大城市出租车越来越多的安装了GPS终端,这些终端能够每隔1分钟向出租车管理中心发送本车的位置、速度和方向等信息,是车辆GPS实时数据。
原始数据主要保存出租车上装配的GPS终端所采集的数据,这些数据包括序号,车牌号码,GPS时间,经度,纬度,车辆状态(空车、重车),车辆速度,车辆方向(8个方向)等信息。
附注网站提供了深圳市出租车GPS数据,从这些数据你是否能够:
1.根据出租车载客的起讫点,结合深圳市的交通地图,恰当的划分交通小区,并选择小区中的某一点,用其经纬数值作为该小区的坐标。
2.根据小区划分和出租车GPS数据,给出载客出租车的OD时空分布。
如:
某时刻从坐标
到
、
的出租车有多少辆。
3.由此,在合理的假设条件下,能否对人们出行的OD时空分布进行推断?
4.根据出租车载客后的行驶数据,筛选出拥堵的路段时段以及拥堵的路口时段。
拥堵的标准自己设定,如某路段在某个时段平均行驶速度小于多少公里/小时(比如,10公里/小时),可认为是拥堵。
二、问题分析
2.1交通小区的概念
交通诱导是均衡一定区域的交通流量,区域控制是对一定数量交叉口的协调控制。
将这个有限的交通区域称之为交通小区。
交通小区是具有一定交通关联度和交通相似度的节点或连线的集合,随时间、关联度和相似度的变化而变化,反映城市路网交通特征的时空变化特性。
交通小区具有同质性关联性、动态性、稳定性、自组织性等特性[1]。
交通小区的划分是分析城市交通网络的一个很好的方式,因为交通小区内具有相似的交通特征和较强的交通关联性交通小区的划分与该城市的人口面积经济特征产业结构等密切相关,并在一定程度上反应了一个城市的吸引力。
一般来说,交通小区的划分应该遵循以下原则[2]:
(1)分区内的经济、社会等特性尽量一致;
(2)小区划分尽量不打破行政区的划分,以便可以利用行政区的统计资料;
(3)尽量以铁路、河川等天然屏障作为分界线,尽可能避免小区内存在人为或自然障碍线;
(4)分区数量适当,中等城市不超过50个,大城市最多不超过100-150个数量太多将加重规划的工作量,数量太少又会降低调查和分析的精度;
(5)小区尽可能规整,避免狭长形状。
本文主要针对深圳市的具体情况划分交通小区。
从资料中得到深圳市行政区划分图为:
深圳市行政区划分图
2.2问题一的分析
问题一要求根据出租车载客的起讫点,结合深圳市的交通地图,恰当地划分交通小区,并确定小区的经纬度。
首先对数据进行分析,发现这是一份相当庞大且很全面的数据,同时也存在划分小区时所用不到的信息。
GPS终端采集的数据包括序号,车牌号码,GPS时间,经度,纬度,车辆状态(空车、重车),车辆速度,车辆方向等信息。
本题需要得到出租车起讫点的信息。
所以只需挑选出车辆状态从空车变为重车,重车变为空车时对应的数据。
根据起讫点的经纬度确定出租车的位置,毫无疑问是大量的二维的样本点,想到用聚类的方法按照出租车起讫点的密集程度将深圳市划分为几个交通小区,然后可以选择小区内各点经纬度的平均值作为小区的坐标。
2.3问题二的分析
问题二需要在第一问的交通小区划分的基础上,给出载客出租车的OD时空分布。
OD时空分布就是某时刻各小区之间的交通量分布。
本文选取居民出行量较多的上班时刻2011/4/19,7:
40,来计算各个小区之间的出租车通行量。
首先得确定出该时刻下有哪些出租车处于载人状态或者开始载人,然后确定这些出租车在这个时刻处于哪个小区,接着追踪乘客的目的地,确定目的地在哪个小区。
对到达各个小区的出租车辆数进行累加求和,即可得到该时刻载客出租车的OD时空分布。
2.4问题三的分析
在前两问的基础上可以求出载客出租车的OD时空分布,如果要对人们出行的OD时空进行推断,首先得知道居民出行时有多大可能选择乘坐出租车,即得到各个小区之间居民乘坐出租车来往的概率分布,可以考虑建立居民出行基于距离而考虑选择出租车的隶属度函数。
然后根据已知的载客出租车的OD时空分布,除以对应的概率,即可得到人们的总的出行OD时空分布。
2.5问题四的分析
衡量路段或路口的标准有很多种,这里选择路段或路口的平均速度来判断某路段或某路口是否拥堵。
在路口时,由于行驶方向较多,并且设置红绿灯,交通相对复杂,出租车的行驶速度也会放慢,所以设定路口行驶车辆的平均速度小于10km/h时,认定其会导致路段拥堵。
在路段行驶时,来往车辆按两个方向进行行驶,交通较为顺畅,所以设定路段行驶车辆的平均速度小于20km/h时,认为其导致路段拥堵。
本文将2011/4/19等间隔分成一些时间段。
通过出租车行驶方向是否变化来判断路口和路段位置,分别计算出路口路段车辆的平均行驶速度,确定出拥堵的路口路段,得到各个时间段得交通拥堵图。
三、模型假设
1、假设深圳市在采集数据的时间内没有出现阻碍或促进居民出行的情况,例如一些活动;
2、假设地球是规则的球体;
3、假设居民出行选择出租车时只考虑距离的长短;
4、假设出租车的在路段平均行驶速度小于20km/h时导致路段拥堵;
5、假设出租车在楼口的平均速度小于10km/h时导致路口拥堵;
四、符号说明
符号
说明
name
车牌号
time
采集时间点
jd
经度
wd
纬度
status
车辆状态
v
车速
angle
行车方向
出租车载客起讫点的经度
出租车载客起讫点的纬度
交通小区坐标
从小区i出发去往小区j的的所有车次
n
小区个数
m
小区中样本点的个数
l
两个小区之间的距离
p
在某两个小区之间居民乘坐出租车的概率
注:
status为0时表示车辆非打表,即空载,为1时表示已打表,即重载;angle分别为0=东;1=东南;2=南;3=西南;4=西;5=西北;6=北;7=东北;其他符号在文中出现处予以说明。
五、模型的建立与求解
5.1问题一的求解
交通小区是为了减少交通控制和管理系统的复杂性提出的,为了减少交通控制,一些交通相似的地区所组成的紧密区域可以作为一个交通小区。
载客出租车的起始地点和目的地就是交通密集的地方,根据载客出租车起讫点的密集程度用聚类算法方法将深圳市划分为若干个交通小区,在根据小区内各点经纬度的平均值确定小区的坐标。
5.1.1数据处理
由于题目所给数据时时间段为2011/04/18—2011/4/26,车辆总数为13798的GPS数据,数据量十分庞大,基于缩短数据查询时间及提高整体运算性能等方面,本题选取时间段为2011/4/19,8:
00—9:
00的数据。
GPS终端采集的数据包括序号,车牌号码,GPS时间,经度,纬度,车辆状态(空车、重车),车辆速度,车辆方向等信息。
本题需要得到出租车起讫点的信息。
数据中车辆状态status为0时表示出租车空载,为1时表示重载,所以当status从0变为1时,status值为1的位置即为乘客上车的位置,视为起点;status从1变为0时,status值为0的位置即为乘客下车的位置,视为讫点。
针对车辆粤B000H6做如下具体说明:
从数据表中挑选出的2011/4/19,8:
00—9:
00时段的部分原始数据如下:
表1:
部分原始数据
name
time
jd
wd
status
v
angle
粤B000H6
2011/4/19
8:
08:
31
114.0842
22.571
1
51
6
粤B000H6
2011/4/19
8:
08:
53
114.0811
22.57247
1
66
6
粤B000H6
2011/4/19
8:
12:
18
114.0639
22.57123
0
13
0
粤B000H6
2011/4/19
8:
18:
50
114.054
22.57888
0
17
3
粤B000H6
2011/4/19
8:
19:
20
114.0542
22.5784
1
22
3
粤B000H6
2011/4/19
8:
44:
58
114.0493
22.52568
1
0
2
粤B000H6
2011/4/19
8:
45:
20
114.0493
22.52568
0
0
2
根据出租车载客起讫点的确定方法剔除无用数据后,得到如下筛选数据:
表2:
对应优化后数据
name
time
jd
wd
status
v
angle
粤B000H6
2011/4/19
8:
08:
53
114.0811
22.57247
1
66
6
粤B000H6
2011/4/19
8:
12:
18
114.0639
22.57123
0
13
0
粤B000H6
2011/4/19
8:
19:
20
114.0542
22.5784
1
22
3
粤B000H6
2011/4/19
8:
45:
20
114.0493
22.52568
0
0
2
上表中status为0的经纬度即为乘客的下车地点,status为1的经纬度即为乘客的上车地点。
利用这种方法对2011/4/19,8:
00—9:
00时间段的数据进行优化得到出租车载客起讫点的数据,进而划分交通小区。
获取数据的散点图如下:
图1:
数据散点图
5.1.2交通小区的划分
1.DBSCAN聚类划分交通小区
本文利用出租车载客起讫点的密度,首先采用DBSCAN算法对深圳市进行交通小区的划分。
DBSCAN算法是一种基于密度的聚类算法。
它利用类的密度连通特性,可以快速发现任意形状的类。
其优点在于,它可以发现任意形状的聚类,并且不受"噪声"的干扰。
其关键思想是,聚类中每个核心点在给定半径(Eps)的圆内的相邻对象至少必须达到一个数量(MinPts),也就是相邻对象的数量必须超过一个阈值。
具体划分过程如下:
图2:
DBSCAN交通小区划分流程图
参照深圳市行政区面积及我国其他城市交通小区的面积,设定数据点的最小领域Eps为0.0097度,领域内最小车辆数MinPts为20。
根据以上流程对深圳市交通小区的划分图为:
图3:
DBSCAN聚类小区划分图
2.结果分析
从上图可以看出,交通小区划分结果并不理想,其中深圳市南部出租车载客起讫点非常密集,划分结果没有区分开来,这主要是因为DBSCAN算法的缺陷导致的。
由于DBSCAN算法用的是全局Eps值,所以数据空间中的所有对象的领域大小被设置为一致,但是实际起讫点的密度和类间距离是分布不均匀的,所以选取的Eps值很容易让离得较近而密度较大的那些类归为一类。
查询深圳市地图可以知道该区域分别为南山区、福田区、罗湖区、盐田区,这些地区人口居住密集,工业密集,商业繁华,娱乐设施齐全,为深圳市的核心区,且靠近香港,相对而言人类出行较为频繁。
本文考虑用K-Means聚类对这些密集地区进行重新划分。
深圳市西北方出现较多噪声点,对应深圳市地图可以知道该区为光明新区,该地区占地面积较大,但是靠近西部,工业较少,经济相对较差,交通相对较少。
但是这些噪声点不能剔除,因为剔除后无法反映实际交通情况,不利于政府统计数据进行城市规划。
因此本文将这部分噪声点划分为一个独立的交通小区,反应光明光明新区交通量较少的情况。
3.K-Means聚类细分交通小区
针对上述用基于密度聚类的DBSCAN算法对起讫点密集地区划分结果不理想的情况,用K-Means算法对密集地区进行重新划分。
K-Means算法是一种分割式聚类方法,它是数据挖掘技术中一种经典的基于划分的聚类算法。
其目的在于从大量数据点中找出具有代表性的数据点,即中心点,然后再根据这些中心点进行后续的处理。
具体划分过程如下:
图4:
K-Means交通小区细分流程图
根据深圳市行政区的划分情况,将划分个数K设置为7,划分的小区图如下:
图5:
K-Means细分小区图
综上,基于DBSCAN聚类和K-Means聚类结合的方法得到的深圳市交通小区划分图为:
图6:
深圳市交通小区划分图
从上图可以看出,通过聚类运算将深圳市划分为A-K等11个交通小区,与深圳市地图结合,发现居民出行较为频繁的地区与深圳市经济娱乐发展较成熟的区域一致,且基本符合行政区域的划分,证明了交通小区划分的合理性。
5.1.3小区坐标
各交通小区已经划分完毕,每个小区中对应部分出租车载客起讫点的经纬度,本文根据小区内各点经纬度的平均值确定小区的坐标。
即小区坐标
的计算公式为:
式中,m为小区中数据点的个数,
为数据点的经度,
为数据点的纬度。
利用各交通小区中数据点的经纬度,通过公式
(1)的计算可以得出各小区坐标为:
表3:
交通小区坐标
A
B
C
D
E
F
jd
114.23005
114.2451251
114.195238
113.8919059
114.04679
113.9578
wd
22.55717481
22.72517273
22.64873674
22.70123756
22.53716
22.54838
G
H
I
J
K
jd
114.03809
113.91925
113.87093
114.13132
114.10517
wd
22.64962
22.52958
22.59263
22.58996
22.54743
小区中心已在上图中标出。
5.2问题二的求解
5.2.1模型建立
OD时空分布就是某时刻各小区之间的交通量分布。
用OD矩阵表示OD时空分布,OD矩阵定义如下:
式中,
表示某时刻,从小区i出发去往小区j的的所有车次;n表示小区的个数。
本文选取居民出行量较多的上班时刻来具体说明如何确定载客出租车的OD时空分布,设定该时刻为2011/4/19,7:
40。
根据数据库中的数据,确定出该时刻下处于载人状态或刚好载人的出租车及其经纬度,通过计算这些出租车与所有小区坐标的马氏距离来判定出租车是属于哪个小区的,与哪个小区的马氏距离最小,则判定出租车属于该小区。
之后追踪这些出租车的目的地的经纬度,根据与各小区的马氏距离来判定差租车驶往哪个小区。
对到达个小区的所有车次进行累加求和,即可得出该时刻的载客出租车的OD时空分布。
具体操作流程图如下:
图7:
计算出租车OD时空分布的流程图
5.2.2模型求解
基于以上流程图进行计算,得出2011/4/19,7:
40,该时刻各小区之间的交通量,即载客出租车的OD时空分布如下:
表4:
载客出租车得OD时空分布
A
B
C
D
E
F
G
H
I
J
K
上车人次
A
2
0
0
2
2
0
0
0
0
0
9
15
B
0
40
3
0
0
0
1
0
1
0
0
45
C
0
2
0
0
0
0
0
0
1
0
0
3
D
0
0
0
5
0
0
2
0
3
0
0
10
E
0
2
3
16
281
27
18
24
15
13
130
529
F
1
0
0
2
19
42
2
24
14
1
9
114
G
1
1
2
12
24
4
90
2
1
16
24
177
H
1
0
0
12
30
62
2
63
19
5
16
210
I
0
0
1
4
7
50
0
25
39
1
4
131
J
2
2
11
5
41
3
16
5
3
62
113
263
K
7
0
2
28
121
10
15
13
16
49
269
530
下车人次
14
47
22
86
525
198
146
156
112
147
574
2027
从上表中可以看出,上班时间E区和K区乘坐出租车上班的人数最多且在两小区下车人数也最多,说明这两个小区交通量大,工作单位多,经济相对发达。
查询深圳市地图可知,E区和K区分别对应福田区和罗湖区,恰恰是深圳市的经济核心区。
由此证明了交通小区划分的合理性和OD时空分布计算的正确性。
类比以上方法可以求出其他不同时刻下载客出租车得OD时空分布。
5.3问题三的求解
本文考虑先求出各个小区间居民选择出租车进行来往的概率,根据已知的载客出租车的OD时空分布,推出人们出行的OD分布。
5.3.1模型建立
1.各交通小区间距离
因为各小区坐标是以经纬度形式表示的,不利于计算两个小区之间的距离,现对其进行转化。
假设地球为一个规则的球体,地球半径为R=6371.004km。
查询可知深圳市所在纬度圈半径为:
式中,θ为纬度角,资料显示22.45°<θ<22.87°,介于其范围较小,将θ设定为22.5°。
单位纬度对应的距离为:
单位经度对应的距离为:
通过代入R和θ的值进行计算得到:
。
所以深圳内两点间所跨经纬度对应的距离为:
式中,
为小区i和j之间的纬度差。
为小区i和j之间的经度差。
综上可以得到两个交通小区之间的距离为:
2.隶属度函数
居民选取交通工具跟其出发点与目的地之间的距离有关系,本文假设居民出行选择出租车作为交通工具只与小区间的距离有关系,通过资料查询,居民出行选择出租车的最大概率为0.7,建立居民出行选择出租车作为交通工具的概率随小区间距离变化的隶属度函数如下:
式中,l为两个小区之间的距离;α,β为未知参数。
5.3.2模型求解
1.小区距离
利用公式(3)—公式(7)可以计算出A-K各交通小区之间的距离(单位为km),分别为:
表5:
各交通小区之间的距离
A
B
C
D
E
F
G
H
I
J
K
A
0.000
18.745
10.791
38.244
18.952
27.975
22.234
32.066
37.092
10.775
12.871
B
18.745
0.000
9.924
36.373
29.189
35.456
22.862
39.914
41.159
19.044
24.439
C
10.791
9.924
0.000
31.695
19.656
26.815
16.139
31.288
33.886
9.263
14.576
D
38.244
36.373
31.695
0.000
24.206
18.296
16.073
19.294
12.268
27.526
27.789
E
18.952
29.189
19.656
24.206
0.000
9.222
12.537
13.125
19.085
10.480
6.103
F
27.975
35.456
26.815
18.296
9.222
0.000
13.953
4.479
10.190
18.409
15.133
G
22.234
22.862
16.139
16.073
12.537
13.953
0.000
18.087
18.300
11.649
13.289
H
32.066
39.914
31.288
19.294
13.125
4.479
18.087
0.000
8.590
22.791
19.197
I
37.092
41.159
33.886
12.268
19.085
10.190
18.300
8.590
0.000
26.744
24.576
J
10.775
19.044
9.263
27.526
10.480
18.409
11.649
22.791
26.744
0.000
5.439
K
12.871
24.439
14.576
27.789
6.103
15.133
13.289
19.197
24.576
5.439
0.000
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 出租车 GPS 数据 分析 深圳市 道路交通 情况