采用HBase的交通管控平台设计与实现.docx
- 文档编号:18100116
- 上传时间:2023-08-13
- 格式:DOCX
- 页数:69
- 大小:2.52MB
采用HBase的交通管控平台设计与实现.docx
《采用HBase的交通管控平台设计与实现.docx》由会员分享,可在线阅读,更多相关《采用HBase的交通管控平台设计与实现.docx(69页珍藏版)》请在冰点文库上搜索。
采用HBase的交通管控平台设计与实现
分类号:
TP311密级:
硕士学位论文
(专业学位)
论文题目:
基于HBase的智能交通管控平台设计与实现
TheDesignandImplementationoftheIntelligentTrafficManagementPlatformBasedOnHBase
作者姓名
学院名称计算机科学与技术学院专业名称计算机技术
指导教师
2016年3月10日
原创性声明
本人郑重声明:
所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。
除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本声明的法律责任由本人承担。
论文作者签名L日期:
关于学位论文使用授权的声明
本人同意学校保留或向国家有关部门或机构送交论文的印刷件和电子版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。
(保密论文在解密后应遵守此规定)
论文作者签名L导师签名:
日期:
ABSTRACTII
m-M^^i
1.1M胃韵1
1.1.1智能交通管控平台介绍1
1.1.2国内研究现状2
1.1.3研究的目的和意义3
1.2舦■雛舰3
1.2.1分布式文件系统3
1.2.2NoSQL数据库4
1.2.3分布式计算技术4
1.2.4其他相关技术介绍5
1.3材5
1.4i仑刘勺翻■6
誠撕8
2.1銳充才既析8
2.2植-性誠8
2.2.1海量数据高速实时接入9
2.2.2海量数据高效存储检索9
2.2.3高性能智能化分析11
2.2.4系统管理14
2.3_錄誠15
絲雛W17
3.1■白勺細_17
3.1.1系统的软件架构设计17
3.1.2系统主数据流走向18
3.2和織十19
3.2.1卡口数据接入设计20
3.2.2卡口数据存储设计22
3.3丰见步员#女、船勾i受计24
3.3.1视频数据接入设计24
3.3.2视频数据存储设计25
3.4业务应用及用户交互部分架构设计26
测#絲测W29
4.1|遲A織测谢十29
4.1.1卡口数据接入详细设计29
4.1.2视频数据接入详细设计33
4.2射細诸織测谢十35
4.2.1卡口数据存储详细设计35
4.2.2视频数据存储详细设计37
4.3苗旬会充i十#女、辦田i受计38
4.3.1卡口数据查询统计详细设计38
4.3.2视频数据查询详细设计40
4.4棚S纏雜嫩i十41
4.4.1图片服务器详细设计41
4.4.2视频服务器详细设计42
紅#■鏡44
5.144
5.2■紙、工力會颂44
5.3■舦植倾鏡51
齡#絲眶54
m惊56
参#1献57
m«59
CONTENTS
AbstractInChineseI
AbstractInEnglishII
CapterlIntroduction1
l.lDevelopmentbackgroundandsignifaicance1
l.l.lIntrocuctionofIntelligentTrfficeSystem1
1.1.2RresentsituationinChina2
1.1.3Developmentpurpose3
1.2Relatedwork3
1.2.1DistributedFileSystem3
1.2.2NoSQLDataBase4
1.2.3DistributedComupting4
1.2.4Otherrelatedworks5
1.3mainwork5
1.4Structureofthepaper6
Capter2Requirementanalysis8
2.1Systemoverviewandanalysis8
2.2Functionrequirements8
2.2.1Datainput9
2.2.2Datastorage9
2.2.2Intelligentanalysis11
2.2.2Systemmanagement14
2.3Non-Functionrequirements15
Capter3Architecturedesign17
3.1Systeminfrastructure17
3.1.1OverAllsystemarchiecturedesign17
3.1.2Systemmaindataflowdirection18
3.2Checkpostmoduledesign19
3.2.1Checkpostdatainputdesign20
3.2.2Checkpostdatastoragedesign22
3.3Videomoduledesign24
3.3.1Videoinputdesign24
3.3.2Videostoragedesign25
3.4Systeminteractiondesign
26
Capter4DetaliedSystemdesign29
4.IDatainputdetalieddesign29
4.1.1Checkpostdatainputdetal-ieddesign29
4.1.2Videoinputdetalieddesign33
4.2Datastoragedetalieddesign35
4.2.1Checkpostdatastoragedetalieddesign35
4.2.2Videostoragedetalieddesign37
4.3Datasearchandcountdetalieddesign38
4.3.1Checkpostdatasearchdetalieddesign38
4.3.2Videosearchdetalieddesign40
4.4Datadownloaddetalieddesign41
4.3.1Imageserverdetalieddesign41
4.3.2Videoserverdetalieddesign42
Capter5Systemimplementation44
5.1Overview44
5.2Partofsysteminterfacedisplay44
5.3Partofsystemimplementationcode51
Capter6Systemtesting54
Capter7Summaryandfuturework56
References57
Acknowledgements59
中文摘要
随着社会经济水平的提高,机动车保有量迅速增长,导致交通拥堵严重、交通事故增长等问题,同时跟车辆有关的犯罪行为也逐渐增加。
针对这一情况,各地公安及交通管理部门建设了大量的智能采集设备,使得对每辆车的行车轨迹进行记录成为可能。
但是采集设备的增加和抓拍清晰度的提高使得获取的数据量飞速增长,对数据接入、存储和分析能力带来了很大的考验。
同时数量巨大、种类丰富的数据中蕴含着巨大的价值,利用好这些数据将产生巨大的社会和经济效益。
面对这些挑战和新的需求,我们尝试使用目前流行的大数据技术来构建新的智能交通管控平台。
为了解决所面临的问题,我们研究了分布式文件系统、NoSQL数据库、磁盘阵列、分布式批处理框架、分布式流处理框架、分布式消息队列等相关技术。
在此基础上,我们对用户需求进行了深入分析,提出了以HBase为基础的分布式架构的设计方案。
我们的方案使用分布式文件系统HDFS存储图片、视频等非结构化数据,将结构化数据存到HBase,使用分布式计算框架对存在HBase中的数据进行分析,使用分布式消息队列作为系统消息传递的中间件,很好地解决了海量数据的接入、存储、查询、分析等问题。
遵循软件工程的基本思想,在完成需求分析和上述的总体设计后我们又继续完成了架构和功能的详细设计、软件功能实现和测试,并最终投入到了实际的生产环境中使用。
在实现过程中,整个系统采用MVC的软件架构,使用了JavaWeb的相关技术和相关框架,做到了模块间的低耦合和模块内的高聚合,保证了代码良好的结构和系统功能的稳定性。
关键词:
NoSQL数据库;分布式文件系统;分布式消息队列;海量数据;
ABSTRACT
Withthedevelopmentofeconomic,thenumberofvehiclehasgrownrapidly,resultinginserioustransportationtrafficandincreaseoftrafficaccidentsandrelatedcrime.Accordingly,thepublicsecurityandtrafficmanagementdepartmentshaveintroducedalargenumberofintelligentgatheringequipmenttorecordthetrackinginformationofeachvehicle.However,ontheonehand,theamountofdatahasincreasedrapidlyduetotheincreaseofnumberofgatheringequipmentandtheincreaseofpixelsofthecapturedimage,bringgreatchallengetothecapabilityofdataaccess,datastorageanddataanalysisofthesystem.Ontheotherhand,takingadvantageofthehugeamountandvarietyofdatacanbringgreatsocialandeconomicbenefits.Withthesechallengesanddemands,weproposetobuildnewintelligenttrafficmanagementandcontrolplatform,utilizingthepopularbigdatatechnology.
Tosolvetheproblemfaced,wedosomeresearchonthedistributedfilesystem,NoSQLdatabases,diskarrays,distributedbatchframework,distributedstreamprocessingframework,distributedmessagequeues,andotherrelatedtechnologies.Basedonthese,weconductdeepanalysisoftheuserdemand,andproposeadistributedarchitecturebasedonHBase.Inmoredetail,weuseadistributedfilesystemnamedHDFStostoreunstructureddatasuchaspicturesandvideos,anduseHBasetostorestructureddata.WethenutilizeadistributedcomputingframeworktoanalyzethedatainHBase,andweuseadistributedmessagequeueasthemiddlewaretopassonsystemmessage,whichisagoodsolutionformassivedataaccess,storage,query,andanalysis.
Followingthebasicprincipleofsoftwareengineering,afteruserdemandanalysisandtheabove-mentionedframeworkdesign,wecontinuetocompletethedetailedarchitectureandfunctionalitydesign,andtheimplementationandtestingofthesoftware,andthenusethesystemintheactualenvironment.Inourimplementation,thesystemutilizestheMVCsoftwarearchitecture,JavaWeb-relatedtechnologiesandframeworks,achievinglowcouplingbetweenmodulesandhighcohesionwithinthemoduletoensurethegoodstructureofthecodeandstabilityofthesystem.
Keywords:
NoSQLdatabase;distributedfilesystem;distributedmessagequeue;hugeamountsofdata.
第一章绪论
1.1研究背景与意义
随着社会经济的发展,人民生活水平的提高,近几年我国机动车的数量增长迅速,截止2015年底,全国机动车保有量达到2.79亿,驾驶人数量达到3.27亿。
机动车的增加在使我国公民的出行更加方便的同时也带来了一系列的社会问题:
交通拥堵问题日益严重,并且已经影响到了我国公民的生活质量;交通事故增多,我国每年死于交通事故的就有20多万人;交通违法、违章数增多;治安及刑事案件中涉及车辆的比重增多。
为了更好地解决上述问题,提高交通及治安管理水平,各地公安部门都在努力尝试各种解决方法,其中最重要的手段便是智能交通管控平台的建设。
1.1.1智能交通管控平台介绍
智能交通管控平台是以道路交通监控为基础,将道路交通监控数据进行收集、存储、分析,对交通管理、治安管理、刑事案件等提供数据和决策支持的系统。
智能交通管控平台一般由一下几大模块组成L1.道路交通监控数据的采集,将路口交通监控摄像机拍摄的图片、视频等信息采集并通过网络汇总到数据中心;2.数据的存储和查询,主要为道路交通监控数据的存储,包括道路抓拍图片的存储、从图片中识别出的结构化文本信息的存储、视频信息的存储;3.数据的分析,主要是对结构化数据的分析,比如对行车轨迹的分析、交通流将变化的分析、嫌疑车辆的分析,另外还需要把道路监控数据跟车辆登记注册数据库、车辆违章数据库等数据库进行关联;4.用户管理和人机交互,主要包括权限管理、角色管理等。
从实现的功能模块上来说,智能交通管控平台主要包括以下几大功能l1.信息查询统计,主要是对原始数据的针对性查询;2.交通管理,主要包括流量分析、路况检测等,用于指导交通疏导和公路建设;3.车辆行为分析,主要服务于治安管理、刑事案件等;4.特殊车辆管理,包括公交车、大客车管理等,主要服务于交通秩序管理。
1.1.2国内研究现状
随着我国信息化水平的提高,公安部门越来越重视信息化建设,从2004年起,全国各地公安部门纷纷开始建设道路监控系统,并基于此开始建设交通管控平台。
在这个过程中也涌现出一些在当时较先进的系统,这些系统的架构大都基于传统的关系型数据库,前端设备把结构化的文本数据直接写到数据库中,把图片、视频等数据放在前端设备搭建的FTP服务器上,我们称之为第一代交通管控平台。
这种架构节省硬件成本,建设成本低,并且在当时的数据规模下(2005年,当时一个中等规模的地级市大概建设前端设备50〜100套,只覆盖城区的核心路口,每天数据量在10万条以内)查询、存储效率还能满足用户需求,所以迅速在全国范围内得到推广。
但是逐渐大家这种架构会带来很多问题,由于图片、视频等数据存在前端设备上,一是前端设备存储容量有限,只能存数一个月以内的数据,二是调取图片、视频的数据时要从前端设备调取,速度非常慢,并且前端设备网络不稳定,经常出现网络故障,一旦出现网络故障则历史数据也无法调取。
为了解决这些问题,2009年左右,一种新的架构开始逐渐流行起来,该架构使用磁盘阵列对图片和视频进行集中存储,首先前端设备将数据发到数据中心数据接入服务器,数据接入服务器再将文本数据存到关系型数据库、将图片视频等数据存到磁盘阵列上,基于这种建构的系统我们称之为第二代交通管控平台。
在2009年到2012年期间第二待交通管控平台开始逐渐取代第一代平台成为主流。
总结可以发现,第一代和第二代智的区别在于对于图片、视频等非结构化数据上前者是在前端存储,后者是数据中心集中存储,但是在结构化数据上都是采用关系型数据库存储,并且基于此进行数据的查询和分析,所以二者从计算方式上都属于单机型架构。
随着道路监控设备建设的推进,到2012年左右基本上每个城市的道路监控设备都能覆盖到城区的主要路口,到2015年更是几乎覆盖到城区的全部路口和高速、国省道、县道的主要路口。
以山东省为例,据统计,2015年山东省各地级市平均拥有道路监控设备3000套以上,设备数已经比第一代交通设备建设时期高出了两个数量级。
同时近几年汽车保有量持续增加,每个路口的车流量也在增加,所以道路交通监控数据的数据量呈现爆发式增
长,中等规模的地级市每天的交通监控数据量也能达到1000万以上,一年的数据量就能达到数十亿条,传统的基于关系型数据库的单机型架构已经不能满足需求。
经调研,目前各地市的传统架构的交通管控平台最多只能接入城区数据,无法将全是数据进行汇总,各县区又分别建设自己的系统来管理自己的数据,各县区与市区的数据不能放在同一个平台进行分析计算,形成f目息孤岛。
1.1.3研究的目的和意义
本文的研究就是在尝试使用近几年逐渐发展成熟的大数据、云计算技术结合交通治安管理实际需求,来解决国内交通管控平台所面临的普遍问题。
近几年随着分布式技术的发展,使得很多以前无法解决的海量数据处理问题有了解决方案。
采用分布式架构的系统可以充分利用集群的优势,摆脱单台机器性能的限制,并且支持在海量数据上进行复杂的分析和计算。
使用分布式架构来构建智能交通管控平台,来取代现有的基于关系型数据库的单机型架构的平台在理论上具有可行性。
并且大数据技术的应用不仅可以使原有查询、分析等业务的效率得到大幅提升,同时可以实现新的更复杂的分析业务,完成更加准确的进行交通流量分析、嫌疑车辆分析等需求,可以有效减少交通违法行为,提高公安部门办事、办案效率,对改善交通状况、驾驭社会治安形势、维护社会和谐稳定有着重要的作用。
1.2相关技术发展情况
为了更好地实现目标,将大数据技术与交通管控相结合,实现一个高性能、高稳定性、功能丰富的智能交通管控平台,本文重点研究了目前流行的大数据技术,梳理了大数据技术的发展情况,并对这些技术做一个简单的介绍。
1.2.1分布式文件系统
数据存储是大数据系统的核心,只有解决了数据存储的问题,使得海量数据可以存的下、存得到才能继续完成其他的分析计算的任务,所以海量数据存储技术的发展是大数据进步的重要基础,同时选择好的数据存储方案也是我们构建新型智能交通管控平台的基础。
在数据量小的时期单台机器就可以满足数据存储的需求,随着数据量的增长,人们在服务器上挂载的硬盘越来越多,于是发展出了磁盘阵列,磁盘阵列相当于一块由很多个硬盘组合成的大硬盘,可以通过增加硬盘的个数来扩充阵列的存储容量。
由于拥有扩展性,磁盘阵列[1]看起来解决了海量数据存储的问题,但是由于其在物理上必须放在一起,且只能用于存储数据,不能进行本地计算,所以其并不能满足大数据存储和计算的需求。
2003年Google关于GFS[2]的论文很好的解决的海量数据存储的问题,并促进了分布式文件系统的发展,从此分布式架构越来越被重视。
Yahoo基于GFS的论文,很快开发出了自己的分布式文件系统HDFS[3]并将其开源,彻底促进了大数据存储系统的发展,越来越多的分布式文件系统涌现了出来,比如Facebook的针对海量小文件的文件系统HayStack[4],加州大学的Ceph[5]文件系统,还有淘宝推出的文件系统TFS[6]。
1.2.2NoSQL数据库
分布式文件系统主要用于文件的存储,可以服务于各种类型的数据的存储,但是不能像数据库那样根据数据的内容来构建索引并提供快速的检索查询服务。
传统的关系型数据库由于有各种关系的依赖及索引的限制,可扩展性差,并且随着数据量的增长查询效率会急剧降低。
所以在大数据处理中我们还需要一种新型的数据库来满足海量数据的存储和索引需求。
这种需求促进了NoSQL数据库[7]的快速发展。
NoSQL数据库是非关系型数据库的统称,包括Key-Value数据库、列式数据库[8]、文档型数据库、图形数据库四种。
由于去掉了关系型数据库中的关系依赖等特性,NoSQL数据库在面对据模型较简单的业务需求时展现了非常高的性能,同时依赖的减少、数据一致性要求的降低使得NoSQL数据库天然的具有更容易分布式的特点。
近几年,伴随着技术的发展,涌现出了一大批优秀的NoSQL数据库,其中最著名的便是Google的BigTable[9]和Hadoop生态系统中的BigTable的开源实现HBase[10],其余的还有MongoDB[11]、Cassandra等。
1.2.3分布式计算技术
在实现了海量数据的存储和索引等大数据的基础设施建设后,我们还要能对海量数据进行分析,才能进一步挖掘数据的价值。
在小规模数据时代,我们进行数据分析的时候往往是先把数据取到本地,然后对数据进行分析计算。
然而对于对于海量数据而言,这样的架构存在两个无法解决的问题,首先是计算效率的问题,相同的算法,数据规模越大计算需要的时间越长,当数据规模达到一定程度的时候单台机器的性能再高完成计算也需要很长的时间,在海量数据时代,这个时间往往是十分惊人地。
其次在海量数据时代,想要把计算需要的数据先取到一台机器上在进行计算几乎是不可能的。
要解决这些问题,职能由分布式计算来完成。
分布式计算主要分为分布式批处理和分布式流处理两种。
分布式批处理是将计算任务分成可以并
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 采用 HBase 交通 平台 设计 实现