换一换

冰点文库 > 资源分类 > PPT文档下载

预览

大数据介绍课件.ppt

资源ID：18714012 资源大小：5.06MB 全文页数：71页
资源格式： PPT 下载积分：15金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

大数据介绍课件.ppt

1、大数据时代的背景,“大数据”的诞生：半个世纪以来，随着计算机技术全面融入社会生活，信息爆炸已经累积到了开始引发变革的程度。它不仅使世界充斥着比以往更多的信息，而且其增长速度也在加快。如今，这个概念几乎应用到了所有人类智力与发展的领域中。,21世纪是数据信息大发展的时代，移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围，各种数据正在迅速膨胀并变大互联网（社交、搜索、电商）、移动互联网（微博）、物联网（传感器、智慧地球）、车联网、GPS、医学影像、安全监控、金融（银行、股市、保险）、电信（通话、短信）,大数据的定义,大数据（Big data或Megadata），或称巨量数据、海量数据

2、、大资料，指的是所涉及的数据量规模巨大到无法通过人工在合理时间内截取、管理、处理、并整理成为人类所能解读的形式的信息。,数据大爆炸,EB,ZB,地球上至今总共的数据量：在2006年，个人用户才刚刚迈进TB时代，全球一共新产生了约180EB的数据；在2011年，这个数字达到1.8ZB.到2020年，整个世界的数据总量会增长44倍，达到35ZB,想要驾驭着庞大的数据必须先了解大数据的特征,多样性（Variety）,大数据具有4V特征,速度（Velocity）,价值（Value）,容量（Volume）,海量数据处理，难以集中存储和计算TBPBEB,快速地数据传输流模式实时准实时批量,多种多样的数据类

3、型结构化半结构化非结构化,巨大的数据价值高价值低密度碎片化高离散化,传统数据与大数据对比,相关技术,分析技术：数据处理：自然语言处理技术统计和分析：A/B test；top N排行榜数据挖掘：关联规则分析；分类；聚类,大数据技术：数据采集：ETL工具数据存取：关系数据库；NoSQL；SQL等基础架构支持：云存储；分布式文件系统等计算结果展现：云计算；标签云；关系图等,存储：结构化数据：海量数据的查询、统计、更新等操作效率低非结构化数据：图片、视频、word等文件存储不利于检索、查询和存储半结构化数据：转换为结构化存储按照非结构化存储,解决方案：Hadoop流计算,数据源（互联网、物联网、企业数

4、据）,数据收集（ETL（kattle）、提取、转换、加载）,数据存储（SQL和NoSQL）,资源管理,（1）、数据收集、准备,（2）、数据存储,批处理,交互式,流处理,数据挖掘（数据仓库、olap、商务智能等）,数据可视化,用户,（3）、资源管理,（4）、计算框架,（5）、数据分析,（6）、数据展示,Hbase的优劣,1、动态可扩展的，创建表的时候不需要知道有几列，只需要指定有几个column family，并且列为空就不存储数据,节省存储空间。为什么列是动态的？统计淘宝访问量和购买量，新平台的统计，传统关系型数据库需要停机维护，而Hbase支持动态增加2、多版本数据根据Row key和Col

5、umn key定位到的Value可以有任意数量的版本值，因此对于需要存储变动历史记录的数据，用HBase就非常方便了。3、支持事务较弱，所以有事务支持的时候都会选择传统的关系型数据库，Hbase事务仅仅是针对某一行的一系列Put/Delete操作。不同行、不同表间一系列操作是无法放在一个事务中的。对一张多Region表来说，还是无法保证每次修改都能封装为一个事务。,计算框架,批处理：mapreduce 例：报表实时性：（毫秒级）storm 例：信用卡欺诈交互式分析：（秒级）spark,数据挖掘,数据挖掘,数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程,数据可视化,大数据主要应用技

6、术-Hadoop,Hadoop是一个由Apache基金会所开发的分布式系统基础架构Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。,运行平台：Linux、Mac OS/X，Solaris，Windows,Hadoop 优点,1、高可靠性：hadoop按位存储和处理数据的能力值得人们信赖。,2、高扩展性：hadoop是在可用的计算机集簇之间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。,3、高效性：能够在节点之间动态地移动数据，并保证各个节点之间的动态平衡，因此处理速度非常快。,4

7、、高容错性：hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。,5、低成本：hadoop本身是运行在普通PC服务器组成的集群中进行大数据的分发及处理工作的，这些服务器集群是可以支持数千个节点的。,Hadoop核心设计,MapReduce,HDFS,Map：任务的分解Reduce：结果的汇总,NameNode：文件管理DataNode：文件存储Client：文件获取,HDFS架构,主从（Master/Slave）体系结构只含有一二NameNode主服务节点这个节点管理文件系统中的命名空间和调度客服端对文件的访问通常一个机器就是一个DataNode数据节点，DataNode

8、管理本节点上数据的存储在HDFS内部，一个文件被分割为一个货多个数据块，并且这些数据块被存储在一批DataNode中NameNode执行文件系统中命名空间的操作（打开、关闭、重命名文件和目录），NameNode需要执行数据块到DataNode映射的决策DataNode负责响应来自客户端的文件读写要求，也要负责执行来自NameNode的关于数据块创建、删除和冗余存储的指令,Map/Reduce处理过程,一次Map/Reduce任务过程。用户提交给JobTracer，JobTracer把对应的用户程序中的Map操作和Reduce操作映射至TaskTracer节点中；输入模块负责把输入数据分成小数据

9、块。然后把他们传给Map节点；Map节点得到每一个key/value对，处理后产生一个或多个key/value对，然后写入文件；Reduce节点获取临时文件中的数据，对代用相同key的数据进行迭代计算，然后把最终结果写入文件。,我们要数图书馆中的所有书。你数1号书架，我数2号书架。这就是“Map”。我们人越多，数书就更快。现在我们到一起，把所有人的统计数加在一起。这就是“Reduce”。,Hadoop体系架构,Pig,Hive,Avro,Mahout,MapReduce/YARN,Cassandra,HBase,HDFS,Apache Ambari是一个基于Web的工具，用于配置、管理和监视A

10、pache Hadoop集群，支持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。,Apache Ambari,Apache Pig是一个用于大型数据集分析的平台，它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行，也就是说让它们支撑起非常大的数据集。Pig的基础设施层包含了产生Map-Reduce任务的编译器,Apache Pig,Apache Hive是Hadoop的一个数据仓库系统，促进了数据的综述（将结构化的数据文件映射

11、为一张数据库表）、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能HiveQL语言，同时当使用这个语言表达一个逻辑变得低效和繁琐时，HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。Hive类似CloudBase，基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总，即席查询简单化。,Apache Hive,HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：

12、一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。,Apache HBase,Apache Cassandra是一个高性能、可线性扩展、高有效性数据库，可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。在横跨数据中心的复制中，Cassandra同类最佳，为用户提

13、供更低的延时以及更可靠的灾难备份。通过log-structured update、反规范化和物化视图的强支持以及强大的内置缓存，Cassandra的数据模型提供了方便的二级索引（column index）,Apache Cassandra,Avro是一个数据系列化系统；Avro是doug cutting主持的RPC项目，有点类似Google的protobuf和Facebook的thrift。Avro用来做以后hadoop的RPC，使hadoop的RPC模块通信速度更快、数据结构更紧凑Apache Mahout是个可扩展的机器学习和数据挖掘库，当前Mahout支持主要的4个用例：推荐挖掘：搜集用

14、户动作并以此给用户推荐可能喜欢的事物。聚集：收集文件并进行相关文件分组。分类：从现有的分类文档中学习，寻找文档中的相似特征，并为无标签的文档进行正确的归类。频繁项集挖掘：将一组项分组，并识别哪些个别项会经常一起出现。,Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。Apache Chukwa是个开源的数据收集系统，用以监视大型分布系统。建立于HDFS和Map/Reduce框

15、架之上，继承了Hadoop的可扩展性和稳定性。Chukwa同样包含了一个灵活和强大的工具包，用以显示、监视和分析结果，以保证数据的使用达到最佳效果。,Hadoop平台的安装配置,Hadoop安装配置参考如下：http:/,Zookeeper从程序员的角度来讲可以理解为Hadoop的整体监控系统。如果namenode,HMaster宕机后，这时候Zookeeper的重新选出leader。这是它最大的作用所在。下面详细介绍zookeeper的作用,Hadoop有NameNode，HBase有HMaster，为什么还需要zookeeper，下面给大家通过例子给大家介绍。一个Zookeeper的集群中

16、,3个Zookeeper节点.一个leader,两个follower的情况下,停掉leader,然后两个follower选举出一个leader.获取的数据不变.我想Zookeeper能够帮助Hadoop做到:Hadoop,使用Zookeeper的事件处理确保整个集群只有一个NameNode,存储配置信息等.HBase,使用Zookeeper的事件处理确保整个集群只有一个HMaster,察觉HRegionServer联机和宕机,存储访问控制列表等.,Hbase是一个分布式的、面向列的数据库。Hbase利用hadoop的HDFS作为其的文件存储系统，Hbase利用hadoop的MapReduce来

17、处理Hbase中的海量数据，利用Zookeeper作为协同服务,HBase shell的基本用法hbase提供了一个shell的终端给用户交互。通过执行 help get 可以看到命令的帮助信息。以网上的一个学生成绩表的例子来演示hbase的用法。这里grad对于表来说是一个列,course对于表来说是一个列族,这个列族由两个列组成math和art,当然我们可以根据我们的需要在course中建立更多的列族,如computer,physics等相应的列添加入course列族。,(1)列族 column familyhbase表中的每个列，都归属与某个列族。列族是表的chema的一部分(而列不是)

18、，必须在使用表之前定义。列名都以列族作为前缀。例如courses:history，courses:math 都属于 courses 这个列族。,(2)单元CellHBase中通过row和columns确定的为一个存贮单元称为cell。由row key,column(=+),version 唯一确定的单元。cell中的数据是没有类型的，全部是字节码形式存贮。,(3)时间戳 timestamp每个cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由hbase(在数据写入时自动)赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如

19、果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。每个cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。,为了避免数据存在过多版本造成的的管理(包括存贮和索引)负担，hbase提供了两种数据版本回收方式。一是保存数据的最后n个版本，二是保存最近一段时间内的版本（比如最近七天）。用户可以针对每个列族进行设置。,Thinks,空间大数据,目录,一、大数据的涵义与研究意义二、与空间信息和位置相关的大数据三、空间大数据的应用四、空间大数据的存储五、总结,一、大数据的涵义与研究意义,大数据：大型复杂数据集的聚合，这些数据集的规模和复杂程度常超出目前数据库管理软件和传统数据

20、处理技术在可接受时间下的获取、管理、检索、分析、挖掘和可视化能力。,一、大数据的涵义与研究意义,大数据的特点：,）Volume（体量大）：大量TB级以上已有的数据等待处理；）Velocity（速度快）：需要响应以s甚至ms计的流数据不断产生；）Variety（模态多样）：数据来源和类型繁多文本、图片、视频等结构化和非结构化数据并存；）Veracity（真伪难辨）：由于数据的噪音、缺失、不一致性、歧义等引起的数据不确定性；）Value（价值）：大数据使得人们以前所未有的维度量化和理解世界，蕴含了巨大的价值，大数据的终极目标在于从数据中挖掘价值。大数据的核心：预测,一、大数据的涵义与研究意义,研究

21、大数据的意义：科学进步,图灵奖获得者吉姆格雷提出：大数据是科学研究的第四范式，是从计算密集型科研发展到以大数据为基础的数据密集型科研方法。,科学研究方法的发展,真正的革命并不发生在分析数据的机器，而在于数据本身和我们如何运用数据。,一、大数据的涵义与研究意义,研究大数据的意义：社会变革,2009至今美国政府全面开放了40万联邦政府原始数据集。大数据已成为美国国家创新战略、国家安全战略、国家IT产业发展战略以及国家信息网络战略的交叉领域、核心领域。,21世纪数据的价值有可能等同于20世纪的石油，大数据研究使得人们降低了对因果关系的渴求，而关注相关关系。只需要知道是什么，而不需知道为什么。这将使得

22、理解现实和做决定的基础也将受到根本性挑战。,社会,价值,一、大数据的涵义与研究意义,研究大数据的意义：经济增长,二、与空间信息和位置相关的大数据,指直接或间接关联着相对于地球的某个地点的数据，包括自然地理数据和社会经济数据。,空间媒体数据,地理数据,轨迹数据,包含位置的数字化的文字、图形、图像、视频影像等媒体数据，主要来源于移动社交网络、微博等新型互联网应用,指通过GNSS等测量手段以及网络签到等方法获得的用户活动数据，可以被用来反映用户的位置和用户的社会偏好。,位置大数据的分类,二、与空间信息和位置相关的大数据,地理数据,内容：土地覆盖类型数据、地貌数据、土壤数据、水文数据、植被数据、居民地

23、数据、河流数据、行政境界及社会经济方面的数据等。特点：数据体量大、较为规则化、变化较慢。,二、与空间信息和位置相关的大数据,轨迹数据,内容：个人轨迹数据、群体轨迹数据、车辆轨迹数据等,特点：数据体量大、信息碎片化、准确性较低、半结构化,出租车轨迹数据示例,二、与空间信息和位置相关的大数据,社会交流、个性化信息推送、驾驶安全、智能驾驶,为个人生活服务,城市规划、疾病控制、智能交通、节能减排、环境保护、应急响应,企业调度、门店选址、广告推送、位置营销,为企业经济服务,为城市运行服务,位置大数据的作用,三、空间大数据的应用,1.空间大数据与智能交通,Inrix是美国的一家交通数据处理公司，也是全球领

24、先的道路交通信息和驾驶员服务供应商。他们设计的APP是一款致力于为全球交通问题带来智能数据和先进的分析方法的交通智能化平台。,三、空间大数据的应用,利用大数据预判未来交通信息和路况是核心,2012年英国伦敦奥运会利用INRIX软件和在线服务确保交通顺畅;在美国有超过25个州的交通部门使用INRIX数据辅助交通管理。,三、空间大数据的应用,2015年2月11日，国内智能交通行业领军企业北京千方科技股份有限公司与INRIX签署战略合作协议。千方科技在国内智能交通行业具有深厚的理解和市场、技术积累，INRIX在欧美地区具有成熟的交通信息化解决方案和先进理念。双方将结合各自的优势，整合交通信息化及数据

25、分析解决方案和产品，共同拓展智能交通行业市场，双方将在交通大数据分析、增值挖掘、交通仿真等技术方向深度交流，提升双方专业化及技术能力。不过，由于涉及国内职能部门的数据保护问题，国内手机用户还未能够体验这款App。,三、空间大数据的应用,2.空间大数据与社会生活,2014年春节期间，百度地图定位可视化大数据播报的国内春节人口迁徙情况。,2015年最近一周南京夫子庙景区热力图,三、空间大数据的应用,3.空间大数据与应急管理,2013年4月15日，波士顿马拉松爆炸案事发几小时内，数以千计的在场群众将事发现场拍摄的照片和视频放到了公共网络平台上，这些照片和视频图像来自各种相机，手机和平板电脑。不到一天

26、时间，嫌犯被确认并在纽约被抓获这是一种典型的利用空间社会媒体的位置大数据与反犯罪机构的专业能力结合，建立的城市安全与应急新体制,位置大数据研究涉及到数据采集、数据处理、计算和存储以及可视化等一套完整的方法体系,四、空间大数据的存储,四、空间大数据的存储,海量数据的高效存储,支持丰富的数据类型,处理速度快,数据库应当易于扩展,大数据下对于数据库的需求,四、空间大数据的存储,CAP,NOSQL,BASE,不保证遵循 ACID原则,分布式的,非关系型的,四、位置大数据的存储,必须保证,两者权衡,一致性,可用性,分区容错性,BASE,四、空间大数据的存储,灵活,高可用性,高性能,易扩展,NoSQL数

27、据库的特点,四、空间大数据的存储,Key-value型,文档型,图形数据库,列式存储,四、空间大数据的存储,定义一个大的有序结构数组HashValuem，用来存放各信息,查询,哈希表,哈希函数,当查询的时候再使用哈希函数得到这个下标值,编写一个哈希函数将关键值的名字转换为HashValuem中的某个下标值x,Key-value型,四、空间大数据的存储,文档,集合,数据库,集合就是一组文档。集合是无模式的。,多个文档组成集合多个集合数据库。,它包含多个键/值对文档中的键/值对是有序的,文档型数据库,四、空间大数据的存储,四、空间大数据的存储,四、空间大数据的存储,四、空间大数据的存储,四、空间

28、大数据的存储,这便是一个document，使用JSON格式，一目了然。其中的geom即为Geometry类型的数据，即地理空间数据，也是采用JSON格式存储，这样后续的空间索引与空间查询将十分方便。,四、空间大数据的存储,db.xqpoint.find(geom.coordinates:122.53233,52.968872),精确查询,邻域查询,db.xqpoint.find(geom.coordinates:$near:122,52),db.xqpoint.find(geom.coordinates:$near:122,52).limit(5),db.xqpoint.find(geom.c

29、oordinates:$near:122,52,$maxDistance:5).limit(5),四、空间大数据的存储,范围查询,box=80,40,100,50 db.xqpoint.find(geom.coordinates:$within:$box:box),center=80,44 radius=5 db.xqpoint.find(geom.coordinates:$within:$center:center,radius),polygon1=75,35,80,35,80,45,60,40 db.xqpoint.find(geom.coordinates:$within:$polygon:polygon1),五、总结,大数据研究带来的挑战,

注意事项

本文（大数据介绍课件.ppt）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。