欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    简析大数据及其处理分析流程Word格式.docx

    • 资源ID:8619024       资源大小:190.45KB        全文页数:7页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    简析大数据及其处理分析流程Word格式.docx

    1、【关键词】 大数据;数据处理技术;数据分析引言大数据时代已经到来,而且数据量的增长趋势明显。据统计仅在 2011 年, 全球数据增量就达到了 1.8ZB (即 1.8 万亿 GB )1,相当于全世界每个人产生 200GB 以上的数据,这些数据每天还在不断地产生。而在中国,2013年中国产生的数据总量超过 0.8ZB (相当于8亿TB),是 2012 年所产生的数据总量的 2 倍,相当于 2009 年全球的数据总量 2。2014 年 中国所产生的数据则相当于2012年产生数据总量的10倍,即超过8ZB,而全 球产生的数据总量将超40ZB。数据量的爆发式增长督促我们快速迈入大数据时 代。全球知名的

    2、咨询公司麦肯锡 (McKinsey)2011 年 6 月份发布了一份关于大数 据的详尽报告Bigdata : The next frontier for innovation,competition, and productivity ”3,对大数据的影响、关键技术和应用领域等都进行了详尽的分析。进入 2012 年以来,大数据的关注度与日俱增。处于发展中国家前列的中国,大数据的应用处于起步阶段。在工信部发布的 物联网“十二五”规划中,把信息处理技术作为4项关键技术创新工程之一提出, 其中包括了海量数据存储、 数据挖掘、图像视频智能分析, 这都是大数据的重要 组成部分。而另外3项:信息感知技术、

    3、信息传输技术、信息安全技术,也与“大 数据”密切相关。由此可见,大数据的发展已经得到了世界范围内的广泛关注,发展趋势势不 可挡。如何将巨大的原始数据进行有效地利用和分析, 使之转变成可以被利用的 知识和价值,解决日常生活和工作中的难题,成为国内外共同关注的重要课题, 同时也是大数据最重要的研发意义所在。1 大数据的概念数据发展历程上出现过类似的术语有超大规模数据、 海量数据等。“超大规模” 一般表示对应GB (1GB = 1024MB )级别的数据,“海量” 一般表示的启B (1TB =1024GB )级的数据,而现在的“大数据”则是PB (1PB = 1024TB )、EB (1EB =10

    4、24PB )、甚至 ZB (1ZB = 1024EB )级别以上的数据。2013 年 Gartner 预 测世界上存储的数据将达到 1.2 ZB ,如果将这些数据刻录到 CD-R 只读光盘上, 并堆起来,其高度将是地球到月球距离的 5 倍5。不同规模的背后隐含的是不同 的技术问题或挑战性研究难题。1.1大数据的产生在科学研究(天文学、生物学、高能物理等) 6、计算机仿真、互联网应用、 电子商务等领域,数据量呈现快速增长的趋势.美国互联网数据中心( IDC )指 出,互联网上的数据每年将增长 50以上,每 2 年便将翻一番,而目前世界上90以上的数据是最近几年才产生的。数据并非单纯指人们在互联网

    5、上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传 递有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化等也产生了海 量的数据信息。1.2大数据概念的提出1 9 8 9 年,Gartner Group 的 Howard Dresner 首次提出“商业智能” (Bussiness intelligence )这一术语 7 。商业智能通常被理解为企业中现有的 数据转化为知识、 帮助企业做出明智的业务经营决策的工具, 主要目标是将企业 所掌握的的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性。 为了将数据转化为知识,需要利用数据仓库、联机分析处理( OL

    6、AP )工具和数 据挖掘(Data Mining)等技术。随着互联网络的发展,企业收集到的数据越 来越多、数据结构越来越复杂, 一般的数据挖掘技术已经不能满足大型企业的需 要,这就使得企业在收集数据之余, 也开始有意识的寻求新的方法来解决大量数 据无法存储和处理分析的问题。 由此, IT 界诞生了一个新的名词“大数据”。根据维基百科的定义,“大数据(Big Data)指所涉及的资料量规模巨大到无 法透过目前主流软件工具, 在合理时间内达到撷取、管理、处理、并整理成为 帮助企业经营决策更积极目的的资讯。 关于数据量达到多少可以叫大数据, 目前 尚无统一说法。通常认为,大数据一般应在 10TB1P

    7、B ( P 为 T 的 1024 倍) 以上。1.3大数据的特征在日新月异的IT 业界,各个企业对大数据都有着自己不同的解读.但大家都普遍认为,大数据有着4 “V”特征即Volume (容量大)、Variety (种类多)、Velocity (速度快)和最重要的 Value (价值密度低) 9:(1)量大(Volume Big )。数据量级已从TB (210GB )发展至PB (210TB ) 乃至ZB (220PB ),可称海量、巨量乃至超量。(2)多样化( Variable Type )。数据类型繁多,愈来愈多为网页、图片、视 频、图像与位置信息等半结构化和非结构化数据信息。(3)快速化(

    8、 Velocity Fast )。数据流往往为高速实时数据流,而且往往需 要快速、 持续的实时处理; 处理工具亦在快速演进, 软件工程及人工智能等均可 能介入。(4)价值高和密度低(Value Highand Low Density )。以视频安全监控为例, 连续不断的监控流中, 有重大价值者可能仅为一两秒的数据流; 360 全方位视频 监控的“死角”处,可能会挖掘出最有价值的图像信息。( 5)复查 Complexity :处理和分析的难度非常大。1.4大数据的应用领域发展大数据产业将推动世界经济的发展方式由粗放型到集约型的转变, 这对 于提升企业综合竞争力和政府的管制能力具有深远意义的影响。

    9、 将大量的原始数 据汇集在一起, 通过智能分析、 数据挖掘等技术分析数据中潜在的规律, 以预测 以后事物的发展趋势, 有助于人们做出正确的决策, 从而提高各领域的运行效率, 取得更大的收益。其中,包括:商业、金融、医疗、制造业等。2 大数据处理分析流程从大数据的特征和产生领域来看,大数据的来源相当广泛,由此产生的数据 类型和应用处理方法千差万别。 但是总的来说, 大数据的处理分析流程基本可划 分为数据采集、数据处理与集成、数据分析和数据解释4个阶段。2.1数据采集大数据的“大,”原本就意味着数量多、 种类复杂,因此,通过各种方法获取数 据信息便显得格外重要. 数据采集是大数据处理流程中最基础的

    10、一步, 目前常用 的数据采集手段有传感器收取、射频识别(RFID)、数据检索分类工具如百 度和谷歌等搜索引擎,以及条形码技术等。2.2数据处理与集成数据的处理与集成主要是完成对于已经采集到的数据进行适当的处理、 清洗 去噪以及进一步的集成存储。2.3数据分析数据分析是整个大数据处理流程里最核心的部分,因为在数据分析的过程 中,会发现数据的价值所在。 传统的数据处理分析方法已经不能满足大数据时代 数据分析的需求。 在数据分析技术方面, Google 公司于 2006 年率先提出了 “云 计算”的概念,其内部各种数据的应用都是依托 Google 自己内部研发的一系列云 计算技术10,例如分布式文件

    11、系统GFS、分布式数据库BigTable、批处理技术 Map Reduce,以及开源实现平台 Hadoop11等。这些技术平台的产生,提供了 对大数据进行处理、分析很好的手段。2.4数据解释在一个完善的数据分析流程中,数据结果的解释步骤至关重要。但随着数据 量的加大, 数据分析结果往往也越复杂, 用传统的数据显示方法已经不足以满足 数据分析结果输出的需求,因此,为了提升数据解释、展示能力,现在大部分企 业都引入了“数据可视化技术”12作为解释大数据最有力的方式。 通过可视化结果 分析,可以形象地向用户展示数据分析结果,更方便用户对结果的理解和接受。常见的可视化技术有基于集合的可视化技术、 基于

    12、图标的技术、基于图像的技术、面向像素的技术和分布式技术,等等。站擠型啟据 半錯构型数据 卩站札I曬雄也 M VW KWVK ! | Bvnww WWK Bl |WW KW9 VW9KPHMS ; ; ilTML I : bocumeni j i! i!E 1 玄數据灶湮姦本流程3大数据时代面临的挑战大数据面临的挑战是多方面的:(1)数据的快速增长对存储空间、存储技术、数据压缩技术、能源消耗的挑战:大数据需要占用大量的存储空间, 尽管存储性价比在提高,压缩技术也在 不断发展,但保存数据所消耗能也在大量增长。 解决办法是研制出新一代高密度、 低能耗存储设备。(2)数据本身安全及个人隐私泄露面临的挑

    13、战:在海量数据洪流中,在线 对话与在线交易活动日益增加, 其安全威胁更为严峻。 大数据环境下通过对用户 数据的深度分析,很容易了解用户行为和喜好, 严重的将导致企业的商业机密 及个人隐私泄露。 保障数据及应对人隐私泄露的解决办法有: 通过物理隔离以 及与权限控制相结合, 实现对数据的隔离,保证数据不被非法访问并保证用户 数据的隐私。通过信息加密的功能,防止用户信息被盗取。用户的关键信息, 如登录密码和系统访问等其他鉴权信息,无论是传输时还是在存储时必须加密。 通过对硬盘实施有效的保护: 保证即使硬盘被窃取, 非法用户也无法从硬盘中 获取有效的用户数据。将数据切片存储在不同的云存储节点和硬盘上,

    14、 数据无法通过单个硬盘恢复。 故障硬盘无需进行数据清除即可直接废弃, 用户数据不会 通过硬盘泄露。通过立法来保障企业的商业机密及个人隐私不被非法应用。(3) 网络带宽能力与对数据处理能力面临的挑战:网络带宽是瓶劲,尤其 表现在各网络接入商之间的互联互通出口上; 大数据时代网络必须有足够的带宽 支持, 才能保证数据实时性。数据计算能力是应对数据洪流时的又一挑战,采 用分布式计算可以解决其中的一些问题,但部署相对较复杂。(4) 有效数据撷取面临的挑战:从海量数据中提取隐含在其中的、潜在有 用信息和知识的过程十分复杂的, 需要反复 “去伪存真。”通常要经过业务理解、 数据理解、数据准备、建立挖掘模型

    15、、评估和部署等多个步骤。即在开始数据分 析之前,我们必须了解业务需求, 根据需求明确业务目标和要求; 接下来便是对 现有数据进行评估,并对原始数据进行组织、清理、集成、变换等一系列数据收集和预处理工作;在搞好数据清理的基础上, 应用相关算法和工具建立分析模型; 之后对所建立的模型进行评估, 重点具体考虑得出的结果是否符合最初的业务 目标;最后,便可将发现的结果以及过程利用各种可视化技术(报表、报告、图 形等)呈现出来。4 结语大数据的发展,促使人类的活动范围在扩大,需求在增长,世界已经逐渐在 全球范围内分工协作和业务整合, 促使人类把学习、 生活和工作的模式从局部走 向全局,利用网络思维,把个

    16、人、企业、组织、政府、自然和社会重新定义并且 赋予新的联系, 通过它们之间的智能化互动运转, 使用群体智能改善人类生存环 境和提升公共服务质量, 提高性能、效率和生产力。 大数据技术进步和产业升级, 将催生出新的市场、 新的业务模式和新的产业规律, 显示一个国家寻求战略优势 的集体意志。 虽然大数据概念火热, 提供了人类通过观察数据全貌以深刻理解世 界的机遇,但是距离利用大数据获取数据智能和人类智慧仍存在较大距离。参考文献:1李新华浅谈大数据时代的机遇与挑战J.通讯世界.2013(06)2沈松雨.大数据环境下GIS技术发展研究J.科技创新与应用.2015(10)3孟小峰,慈祥.大数据管理:概念

    17、、技术与挑战J.计算机研究与发展.2013(1)4刘智慧,张泉灵.大数据技术研究综述 J. 浙江大学学报 (工学版). 2014(06)5何非,何克清 .大数据及其科学问题与方法的探讨 J. 武汉大学学报 (理学版 ). 2014(01) 吴吉义,傅建庆,张明西,平玲娣.云数据管理研究综述J.电信科学.2010(05)7余长慧,潘和平.商业智能及其核心技术J.计算机应用研究 2002(09)8熊忠阳.面向商业智能的并行数据挖掘技术及应用研究D 重庆:重庆大学,20049严霄凤,张德馨.大数据研究J.计算机技术与发展,2013 , 23 (4): 168 17210李乔,郑啸云计算研究现状综述J 计算机科学,2011 , 38 (4): 32 3711杨宸铸基于HADOOP的数据挖掘研究D 重庆:重庆大学,201012贺全兵 .可视化技术的发展及应用 J. 中国西部科技 . 2008(04)


    注意事项

    本文(简析大数据及其处理分析流程Word格式.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开