欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > PPT文档下载
    分享到微信 分享到微博 分享到QQ空间

    大数据分析讲稿PPT课件下载推荐.ppt

    • 资源ID:7569388       资源大小:8.97MB        全文页数:82页
    • 资源格式: PPT        下载积分:12金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要12金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据分析讲稿PPT课件下载推荐.ppt

    1、1)将问题分而治之;2)把计算推到数据而不是把数据推到计算,有效地避免数据传输过程中产生的大量通信开销。MapReduc模型简单,且现实中很多问题都可用MapReduc模型来表示。,大 数 据 综 述,原理和技术路线,2、典型的大数据处理平台Hadoop 由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的优势进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System,HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上,提供高吞吐量来访问应用程序的数据,

    2、适合那些有着超大数据集(large data set)的应用程序。HDFS可以流的形式访问文件系统中的数据。Hadoop框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算模式。Hadoop已经发展成为包括文件系统、数据库、数据处理等功能模块在内的完整系统,某种程度上可以说已经成为大数据处理工具事实上的标准。,大 数 据 综 述,图3 HadoopDB体系架构(Google),大 数 据 综 述,3、大数据处理基本框架,大数据处理典型框架及流程,大 数 据 综 述,大数据的处理流程可以定义为在合适工具的辅助下,对广泛异构

    3、的数据源进行抽取和集成,结果按照一定的标准统一存储。利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。可分为三个主要环节:数据抽取与集成、数据分析以及数据解释。1)数据抽取与集成:在大数据集合中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据,同时对数据进行清洗,保证数据质量及可信性。现有的数据抽取与集成方式可以大致分为以下4种类型:基于物化或ETL方法的引擎,基于联邦数据库或中间件方法的引擎,基于数据流方法的引擎,基于搜索引擎的方法。,大 数 据 综 述,2)数据分析:整个大数据处理流程的核心。从异构数据源抽取和集成的数据

    4、构成了数据分析的原始数据,根据不同应用的需求可以从这些数据中选择全部或部分进行分析。面向典型的大数据分析领域,如推荐系统、商业智能、决策支持等,目前数据分析技术主要有:挖掘建模分析(数据挖掘方法),智能建模分析(机器学习方法),统计分析等。3)数据解释:将数据分析分析结果面向用户进行展示,如可视化方式,人机交互方式,分析图表方式等。,大 数 据 综 述,4、大数据时代面临的技术创新:大数据时代的数据存在着如下几个特点:多源异构、分布广泛、动态增长、先有数据后有模式,正是这些与传统数据管理迥然不同的特点,使得大数据时代的数据管理面临着新的挑战。(1)大数据集成:广泛的异构性(数据类型从以结构化数

    5、据为主转向结构化、半结构化、非结构化三者的融合),数据产生方式的多样性带来的数据源变化,数据存储方式的变化,数据质量的变化。(2)大数据分析:数据处理的实时性(在线、近线、离线),动态变化环境中索引的设计,先验知识的缺乏。(3)大数据隐私问题(4)大数据能耗问题(5)大数据处理与硬件的协同,大 数 据 综 述,(6)大数据管理易用性:从数据集成到数据分析、直到最后的数据解释,易用性应当贯穿整个大数据的流程。易用性的挑战,突出体现在两个方面:首先大数据时代的数据量大,分析更复杂,得到的结果形式更加多样化,其复杂程度已经远远超出传统的关系数据库;其次,大数据已经广泛渗透到人们生活的各个方面,很多行

    6、业都开始有了大数据分析的需求、利用。(7)可视化原则:原位分析,用户界面与交互设计,大数据可视化,数据库与存储,算法,数据移动、传输和网络架构,不确定性的量化,并行化,面向领域与开发的库、框架以及工具,社会,社区以及政府参与。(8)匹配原则:(9)反馈原则:,大 数 据 综 述,5、元数据及元数据管理元数据是关于数据的数据,数据之间的关联关系以及数据本身的一些属性大都是靠元数据来表示的。可视化技术离不开元数据的支持,因为如果无法准确的表征出数据之间的关系,就无法对数据进行可视化的展示。数据起源技术更是离不开元数据管理技术,因为数据起源需要利用元数据来记录数据之间包括因果关系在内的各种复杂关系,

    7、并通过这些信息来进行相关的推断。如何在大规模存储系统中实现海量元数据的高效管理将会对大数据的易用性产生重要影响,海量元数据管理的问题是需要特别关注的一个问题。,大 数 据 综 述,6、信息融合利用计算机技术对按时序获得的若干传感器的观测信息在一定准则下加以自动分析、综合,以完成所需的决策和估计任务而进行的信息处理过程。多传感器系统是信息融合的硬件基础,多源信息是融合加工的对象,协调优化和综合处理是信息融合的核心。需进一步研究的问题:数据融合系统的功能模型、抽象层次、系统体系结构、设计和性能评价等方面,还有待于从系统的角度进行探讨。,大 数 据 综 述,开发多传感器数据融合系统MSF系统则需要一

    8、个形式框架,以便对MSF系统进行形式化描述,对系统的性质进行形式化表达和验证,从而提高系统结构的可靠性和系统行为的可预测性。形式系统可表示为S=M,T;其中,M 为模型,T为理论。数据融合可视为形式系统上的运算:1)能用形式语言来描述世界(系统)、传感过程;2)能用模型来表达数据、数据运算和数据间的关系,模型由域、常量、函数以及域中元素间的关系构成;3)能用理论来表现关于世界和关于传感器的符号知识。一种形式语言、一个形式语言的理论和一个模型共同构成一个形式系统。,大 数 据 综 述,7、大数据处理流程整个大数据的处理流程可以定义为在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一

    9、定的标准统一存储。具体来说可以分为数据抽取与集成、数据分析以及数据解释。大数据价值的完整体现需要多种技术的协同,文件系统提供最底层存储能力的支持。为了便于数据管理,需要在文件系统之上建立数据库系统。通过索引等的构建,对外提供高效的数据查询等常用功能,最终通过数据分析技术从数据库中的大数据提取出有益的知识。,大 数 据 综 述,8、数据抽取与集成对所需数据源的数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据。从数据集成模型来看,现有的数据抽取与集成方式可以大致分为以下种类型:基于物化或方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎及

    10、基于搜索引擎的方法。,大 数 据 综 述,9、数据分析 数据分析是整个大数据处理流程的核心,大数据的价值产生于分析过程。传统的分析技术如数据挖掘、机器学习、统计分析等在大数据时代需要作出调整,这些技术在大数据时代面临着一些新的挑战。主要有:1)数据量大并不一定意味着数据价值的增加;2)大数据时代的算法需要进行调整;3)数据结果好坏的衡量。,大 数 据 综 述,10、数据解释 1)可视化技术;2)人机交互技术;3)数据起源技术。在线(Online)毫秒-秒级;近线(Nearline)分-小时级;离线(Offline)天为基本单位。,大 数 据 综 述,微软大数据成功预测奥斯卡21项大奖2013年

    11、,微软纽约研究院的经济学家大卫.罗斯柴尔德(David Rothschild),通过收集赌博市场、好莱坞证券交易所、用户自动生成信息等大量公开数据建立预测模型,利用大数据成功预测2014年第85届24个奥斯卡金像奖项中的19个。2015年Rothschild再次成功预测第86届奥斯卡奖24个奖项中的21个,并准确预测出最佳电影、最佳导演、最佳男女主角、最佳男女配角等重头奖项的获奖者,准确率为100。,2012年11月奥巴马大选连任成功也被归功于大数据,他的竞选团队此前对民意进行了大规模与深入的数据挖掘。时代杂志更是断言,依靠直觉与经验进行决策的优势急剧下降,在政治领域,大数据的时代已经到来。,

    12、奥巴马大选连任成功,大 数 据 综 述,电商大数据 随着大型电子商务平台的发展,以往分散的经济数据开始聚合在像阿里巴巴、京东、亚马逊这样的巨头手中,可以实时完成汇总、瞬间完成数据分析,这些电商数据成为了解社会、行业甚至细化到企业的数据百宝库。可以分析出消费者的行为,进行精确的推荐营销,预测企业走势或者行业兴衰。给平台管理者和商家、产家带来大量商机和利润。,数据新闻让英国撤军2010年10月23日卫报利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因

    13、。密布的红点多达39万,格外触目惊心。一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。,大 数 据 综 述,Google成功预测冬季流感2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播,甚至可以具体到特定的地区和州。,大数据与乔布斯癌症治疗乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,

    14、最终这种方式帮助乔布斯延长了好几年的生命。,大 数 据 综 述,互联网、传感技术及其应用的迅猛发展产生了各种各样的海量数据,它们的存储和处理很多都是前所未研究的;社会和生产性服务业(包括物质的、精神的等方面)爆炸式发展产生了海量数据;智慧城市,智能社区、交通、通信、物流、医疗、能源、信息化、机器人等应用中产生了大量的数据。,大数据分析产生的背景,大数据特征和定义,1.“大数据”的名称来自于未来学家托夫勒所著的第三次浪潮 1980年,著名未来学家托夫勒在其所著的第三次浪潮中热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。自然杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“

    15、大数据”才成为互联网技术行业中的热门词汇。2.最早应用“大数据”的是麦肯锡公司(McKinsey)对“大数据”进行收集和分析的设想,来自于世界著名的管理咨询公司麦肯锡公司。麦肯锡公司看到了各种网络平台记录的个人海量信息具备潜在的商业价值,于是投入大量人力物力进行调研。在2011年6月发布了关于“大数据”的报告,该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到了各行各业关注。,大数据特征和定义,3.“大数据”的特点由舍恩伯格和库克耶在编写大数据时代中提出“大数据”的4V特点:Volume(数据量大)、Velocity(输入和处理速

    16、度快)、Variety(数据多样性)、Value(价值密度低)。这些特点得到了广泛认可,凡提到“大数据”特点的文章,基本上采用了这4个特点。4.在云计算技术出现之后“大数据”才凸显其真正价值 自从有了云计算服务器,“大数据”才有了可以运行的轨道,才可以实现其真正的价值。有人就形象地将各种“大数据”的应用比作一辆辆“汽车”,支撑起这些“汽车”运行的“高速公路”就是云计算。最著名的实例就是Google搜索引擎。面对海量Web数据,Google于2006年首先提出云计算的概念。支撑Google内部各种“大数据”应用的,正是Google公司自行研发的云计算服务器。,维基百科对大数据的定义:大数据是指利

    17、用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。,大数据特征和定义,2023年5月8日7时47分,33,任一概念或事物原则上都可用其具有的特征来描述或定义。一旦研究对象用其属性界定以后再开展各种设定目标的研究。同样,“大数据”概念也可从其主要特征(属性)的描述或定义开始来对它的研究。大数据应该具有“大”或“多”的特征(属性),但大数据不只是其包含的数据量大而已。因为仅仅数据量大的问题,现有的计算机软硬件技术基本上都已可解决,不必新提概念。那么,我们所要研究的对象是什么?应该称作什么?它可能具有哪些主要特征?,大数据特征和定义,34,1.数量大 大数据的首要特征当然应该是“规模

    18、大”。何谓大,对于不同的应用问题可有不同的衡量标准,所以大小本身具有相对性,不能简单用数量划界来区分大小。大数据可指大数据集合中包含的数据多,也可指组成大数据的网络包含的子数据个数多。应该说,这些问题如果没有时空的限制,原则上都已能用现有的软硬件技术解决。这种大数据特征一般用来指明该大数据是由很多很多子数据构成的集合,现有各种数据库中的数据大多是这种数据。,大数据特征和定义,2023年5月8日7时47分,35,2、类型多 大数据可以包含多种结构化数据和非结构化数据,数据类型很多,用现有的DBMS等软件技术难以描述和处理。这种大数据特征一般用来指明该大数据中包含的各种数据类型很多,既可包含各种结

    19、构化数据类型,又可包含各种非结构化数据类型,乃至其他数据类型。,大数据特征和定义,2023年5月8日7时47分,36,3.维度高 描述数据的属性维数高,不但可以多至成百上千(有限维),乃至无穷维(可数维、连续维),应用时不得不先降维后才能进一步处理。这种大数据特征(高维度)一般用来指明构建大数据时可以包含各种高维度的子数据。特别,可以采用无穷维度的数据。,大数据特征和定义,2023年5月8日7时47分,37,4、媒体多 表征大数据的媒体(或介质)众多,包括文字、语言、音频、图像、视频、以及各种不断涌现着的新媒体等等。这种大数据特征(多媒体)一般用来指明构建该类大数据的媒体多种多样,乃至包括刚在

    20、网上新出现的各种新媒体。,5.动态性和实时性 大数据的结构和内容等都可动态变化,而且变化频率高、速度快、范围广,数据形态具有极大的动态性,处理需要极快的实时性。,大数据特征和定义,38,6.多源性 组成大数据的子数据的来源空间分布广、时间持续长、网点种类多、数据采集和存储等设备的类型复杂繁多,从而导致采用的标准不一、表述的方式不同、以及数据语义解释混乱等现象,它们都给大数据的处理带来很多困难。这种大数据特征(多源性)一般用来指明构建大数据的子数据的数据来自很多地域、很多时间等等。,大数据特征和定义,2023年5月8日7时47分,39,7.不确定性 不确定性包括随机性和模糊性等特性,可以体现在数

    21、据的内容、结构、处理、以及所含子数据间的关联等多方面。大数据中可以包含众多具有不同概率分布的随机数和众多具有不同定义域的模糊数。数间关联模糊不清、并且可能随时随机变化。,8.复杂性 一个大数据可以又是另一些大数据(作为其子数据)组成的集合,或者由很多大数据互联或超链接(包括递归链接)而成的复杂网络。此外,高维度数据各维之间的各种关联关系也是产生复杂性的重要原因。,大数据特征和定义,9.强噪声 大数据中,往往有用数据和大量无用数据混在一起,因此大数据处理的一项必要工作就是“不断地清垃圾、除噪声”。这个特征也可称为数据的“价值密度”低,大数据往往是有用数据的一种“贫矿”。,10.毒数据多 大数据中

    22、,可能存在大量有毒数据和有用数据混在一起。因此大数据处理的一项必要工作就是“不断地清除可能的毒数据,包括各种病毒、木马、蠕虫、以及恶意程序等等”。,大数据特征和定义,2023年5月8日7时47分,41,11.可信性、安全性和实时性要求高 为了实现大数据的高保密性和高安全性,往往在大数据处理过程中需要加入许多动态变化的密码密钥加解密机制,以及软件文档的验证/认证等可信机制。而且具有严格的解密的实时性要求。其实,在使用有限长度密码时,没有实时性要求就等于没有保密性。,大数据特征和定义,42,12.社会性 大数据往往具有很强的社会性,例如,对于互联网语言,不同年龄、不同阶层和不同地域的人士往往会有各

    23、不相同的理解和运用。因此,为了准确地处理诸如互联网上的舆情大数据,必须仔细考虑数据内容理解中的各种社会性因素。13.可执行性 大数据除了包含作为处理对象的“数据”之外,一般还可随带能够处理相应“数据”的大量可执行代码(程序)。即每个大数据都可分为“数据”和“代码”两部分。因此可以说一个具有大量数据的程序也是一个大数据。例如面向对象数据库就可认为具有这种可执行性。又如空间飞行器的在轨维护数据。,大数据特征和定义,1.可视化分析(AnalyticVisualizations)数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让用户直观看到结果。2.数据挖掘算法(Dat

    24、aMiningAlgorithms)借助机器等工具,利用数据挖掘中的集群、分割、孤立点分析及其他算法可深入数据内部,挖掘有价值的信息。3.预测性分析能力(PredictiveAnalyticCapabilities)数据挖掘可以让用户更好的理解数据,而预测性分析可以让用户根据可视化分析和数据挖掘的结果做出一些预测性的判断。4.语义引擎(SemanticEngines)非结构化数据的多样性带来了数据分析新的挑战,需要一系列的工具去解析、提取、分析数据。语义引擎设计成能够从“文档”中智能提取信息。5.数据管理和数据质量(DataManagementandMasterData Quality)通过标

    25、准化的流程和工具对数据进行处理,保证高质量的分析结果。,大数据分析的五个基本方面,大数据特征和定义,1.数据精准获取技术,可穿戴式的信息获取技术 可植入、可嵌入式数据获取技术 微型移动信息获取技术 生物传感、微纳米传感器、便携式传感器等新型设备。,实时性,精准性,规范性,全面性,系统性,大数据的获取,2.数据标准化技术,领域数据标准化变得极为迫切,信息采集、传输、存储、汇交的标准规范亟需大量出台,产业(行业)基准数据库亟需建立。,大数据数据标准化标准体系框架,传输速率编码标准传输方式传输冗余,汇交方法汇交内容汇交分类汇交范围,采集内容采集方式采集时间采集地点,存储格式存储方式存储安全数据结构,

    26、基 准 数 据 库,数据增值的关键在于整合,但整合的前提是数据标准的统一。,大数据的整合处理,建模技术:农作物生长与产量形成机理建模;农产品消费行为与消费量变化动态建模;基于多代理系统进行农业智能仿真模拟;关联分析:专家会商系统结合;专家智慧动态引入;仿真模拟智能化和自适应;,3.大数据分析处理技术(以农业为例),仿真过程介入;仿真结果反馈;生产与市场决策流程优化。,大数据的分析和解释,大数据的分析和解释,5.大数据+超级计算,种子基因数据+环境因子数据+遗传模型+超级计算 通过计算机动态模拟种子的生产过程、产量形成过程,大数据的处理,6.大数据交互式可视化技术,农信采监测数据可视化,大数据背

    27、景下,在交互式数据可视化技术的支撑下,通过对高频变产品市场数据的处理,实现多品种、多地域、多类型产品市场变动的内在机理、波动周期、市场走势的可视化呈现。,大数据的分析和解释,地质数据分析结果的可视化,大数据的分析和解释,盆地勘测数据的可视化,大数据的分析和解释,预测结果数据的可视化,大数据的分析和解释,大数据建模分析是大数据应用和产生价值的核心!定量数据分析模型定性数据推理分析模型定量与定性信息混合处理模型构建的分析模型所对应的数据结构具备可扩展、可裁剪和交互定制的能力,可实现时间同步处理。大数据分析模型:基于统计分析方法多元回归分析模型相关性(因素)分析模型差异性分析模型马尔科夫时序数据处理模型等,7.大数据建模分析技术,大数据的建模分析,采用数据挖掘方法动态分类和聚类算法关联分析模型序列模式挖掘算法异常情况(现象)发现和分析算法 基于智能建模方法,基于动态神经网络的仿真系统支持向量机动态贝叶斯网络可生长的决策树等分析模型,6.大数据建模分析技术,大数据的建模分析,针对建模要素数据可能为定量、定性或半定量的情况,基于模糊集理论、云变换理论、粗糙集等方法,研究建立可进行定量与定性数据属性相转换和融合的综合处理方法和模型;针对多层次、多阶段的分析问题,建立集成分析模型和决策主题导向的分析模型链,实现对决策问题的协


    注意事项

    本文(大数据分析讲稿PPT课件下载推荐.ppt)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开