大数据(2013.12.06广州暨南大学报告内容).ppt
- 文档编号:18729627
- 上传时间:2023-10-21
- 格式:PPT
- 页数:43
- 大小:7.28MB
大数据(2013.12.06广州暨南大学报告内容).ppt
《大数据(2013.12.06广州暨南大学报告内容).ppt》由会员分享,可在线阅读,更多相关《大数据(2013.12.06广州暨南大学报告内容).ppt(43页珍藏版)》请在冰点文库上搜索。
大数据时代下数据分析理念的辨析,厦门大学数据挖掘研究中心厦门大学经济学院统计系朱建平博士、教授、博士生导师,http:
/xdmrc.org/,报告内容及目的,让大家了解国内外大数据研究和应用现状,明确了“大数据时代”的定义,并从统计学的角度界定“大数据”概念;根据大数据的特点,重新审视大数据时代统计研究工作过程及统计思维所面临的挑战,明确统计工作和统计研究转变的基本思路;了解大数据能带来哪些商业价值。
目的是启发我们一些思考。
大数据时代下数据分析理念的辨析,一、大数据产生的背景二、国内发展现状三、大数据概念的界定四、如何理解大数据和分析大数据五、大数据对统计学科和统计研究工作的影响六、大数据能带来哪些商业价值七、厦门大学数据挖掘研究中心简介,IBM及牛津大学2012年10月发布问卷调查报告称,大数据的主要分析能力有:
1.查询与报告91%;2.数据挖掘77%;3.数据可视化71%;4.可预测的建模67%;5.优化分析65%;6.模拟分析56%;7.自然语言文本分析52%;8.地理空间分析43%;9.数据流分析35%;10.视频分析26%;11.声音分析25%。
一、大数据产生的背景,1955年信息公开,1965年摩尔定律,1973年最小数据集,1980年标准数据接口,1988年普适计算,2000年数据驱动,1955年,约翰摩斯提出自由信息法草案,几经周折,直到1965年才被参议院投票通过,直到次年7月4日才被美国总统签字通过。
摩尔定律:
同一个面积集成电路上可容纳的晶体管数目,一到两年将增加一倍,亦即计算机硬件的处理速度和存储能力将提升一倍。
最小数据集的概念起源于美国医疗领域,指代国家的管理层面针对某个业务管理领域强制搜集的数据指标。
一些领域的最小数据集甚至被上升到立法高度。
数据在不同信息管理系统之间的共享也使数据接口的标准化越来越得到强调。
返回,主机型计算阶段(MainframeComputing),个人型计算阶段(PersonalComputing),普适计算阶段(UbiquitousComputing),21世纪初,世界上许多国家开始关注大数据的发展和应用,在此期间大数据分析和应用的学者和专家发起了关于大数据研究和应用的深入探讨,例如VikorMayer-SchnbergerandKennethCukier所著的大数据时代就是从生活、工作与思维的角度探讨了大数据时代带来的变革。
二、国内发展现状,近年来,对大数据的研究和应用不仅引起了我国自然科学和人文社会科学界的广泛重视,也受到我国中央政府的高度关注:
这些是大数据产业的重要组成部分,与大数据产业发展密切相关。
“十二五”国家战略性新兴产业发展规划明确提出支持海量数据存储、处理技术的研发与产业化,物联网“十二五”发展规划提出将信息处理技术列为四项关键技术创新工程之一,2013年2月国家统计局召开的以大数据为主题的工作会议,2013年3月26日科研所又举办了“大数据在政府统计工作中的应用研究”课题研究专家咨询会,2013年3月4日国家统计局科研所重点讨论部署了“大数据在政府统计中的应用”的研究工作,2012年12月国家统计局在上海开展了大数据应用的调研活动,2012年11月国家统计局总统计师鲜祖德会见美国华裔大数据专家时,提出国家统计局十分重视大数据在统计中的应用,并成立了课题组研究如何通过对大数据处理推进统计方法制度改革,改进政府统计工作,我国国家统计局科研所于2012年8月就召开了大数据应用研究座谈会,提出了在大数据时代运用现代信息技术建立统计云架构的研究目标。
2013年4月11日,国家统计局总统计师鲜祖德率领大数据课题组赴百度公司调研,就大数据在政府统计中的应用及相关合作事宜,与百度公司有关领导和专家进行了深入交流,2013年5月2日国家统计局科研所青年学术沙龙深入研讨大数据应用,2013年8月6日,国家统计局总统计师鲜祖德主持召开了“大数据在政府统计中的探索与应用研究”课题报告座谈会,2013年10月28日-29日,“第十七次全国统计科学讨论会”在浙江省杭州市召开。
主题是:
大数据背景下的统计。
从目前来看,我国大数据的理论研究和应用研究刚刚起步,学术界、企业界及政府部门对该领域的重视程度前所未有。
毫无疑问,由于计算机处理技术发生着日新月异的变化,人们能处理大规模复杂数据能力日益增强,从大规模数据中提取有价值的信息能力日益提高,人们将会迅速进入大数据时代。
数据时代,不仅会带来人类自然科学技术和人文社会科学的发展变革,还会给人们的生活和工作方式带来焕然一新的变化。
三、大数据概念的界定,我们查阅了大量的关于大数据方面的资料,对大数据概念的定义众说纷纭,对大数据的理解决于定义者的观点和背景。
比较有代表性的定义主要有以下几种。
维基百科给出的定义是,大数据指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
大数据科学家JohnRauser提出一个简单的定义是,大数据指任何超过了一台计算机处理能力的数据。
美国咨询公司麦肯锡的报告是这样定义的,大数据是指无法在一定时间内用传统数据库软件工具对其进行抓取、管理和处理的数据集合。
Gartner公司的MervAdrian(2011)认为,大数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力。
IDC(InternationalDataCorporation,2011)对大数据概念的描述为:
大数据是一个看起来似乎来路不明的大的动态过程;但是实际上,大数据并不是一个新生事物,虽然他确确实实正在走向主流并引起广泛的注意;大数据并不是一个实体,而是一个横跨很多IT边界的动态活动。
还有一些学者如格雷布林克(Grobelink.M)(2012)、Forrester的分析师布赖恩霍普金斯(BrianHopkins)、鲍里斯埃韦尔松(BorisEvelson)(2012)和Oracle(甲骨文)的刘念真(2013)等虽未给出大数据的具体定义,但是他们概括了大数据的特点。
格雷布林克(2012)认为大数据具有三个特点,即多样性(Variety)、大量性(Volume)、高速性(Velocity),又称3V特点。
布赖恩霍普金斯(BrianHopkins)、鲍里斯埃韦尔松(BorisEvelson)(2012)认为,除了格雷布林克给出的三个特性外,大数据还具有易变性(Variability)的特点,即4V特点。
刘念真则认为大数据除了Grobelink.M给出的特点外,还具有真实性(Veracity)和价值性(Value),即五V特点。
大数据科学研究还刚刚起步,既然是研究,我们就要理解其的内在的涵义。
这些对大数据概念的表达方式虽然不同,但从各自的角度描述出了对大数据的理解。
从表面看我们可以从两个角度来理解,如果把“大数据”看成是形容词,它描述的是大数据时代数据的特点;如果把“大数据”看成是名词,它体现的是我们科学研究的对象。
1、“大数据时代”的定义格雷布林克(Grobelink.M)在纽约时报2012年2月的一篇专栏中所称,“大数据时代”已经降临,在商业、经济及其他领域中,管理者决策越来越依靠数据分析,而不是依靠经验和直觉。
“大数据”概念之所以被炒得如火如荼,是因为大数据时代已经到来。
理解大数据,必须首先理解大数据的时代背景,这样就有必须澄清大数据时代的含义。
我们可以这样来定义大数据时代,大数据时代是建立在对互联网、物联网等渠道广泛大量数据资源收集基础上的数据存储、价值提炼、智能处理和分发的信息时代。
在这个时代,可以致力于让人们能够从几乎任何数据中获得可转换为推动人们生活方式变化的有价值的知识。
2、“大数据”的定义我们认为大数据定义之所以众说纷纭,没有形成统一的定义。
主要是因为大数据如其名一样,所涉内容太“大”,大家看它的角度不一样,于是出现了仁者见仁,智者见智的局面。
在了解大数据的历史沿革和大数据所处的时代背景后,我们就可以进一步充分了解大数据的内涵。
这里我们需要提及的是,大数据也是数据,统计学应该随时地关注大数据分析,哪里有数据,哪里就有统计分析。
因此,鉴定“大数据”应该在现有科学技术的基础上引入统计学的思想。
我们可以这样来定义“大数据”,大数据指那些超过传统数据系统处理能力、超越经典统计思想研究范围、不借用网络无法用主流软件工具及技术进行单机分析的复杂数据的集合。
对于这一数据集合,在一定的条件下和合理的时间内,我们可以通过现代计算机技术和创新统计方法,有目的地进行设计、获取、管理、分析,揭示隐藏在其中的有价值的模式和知识。
我们认为大数据的基本特征可以体现在以下四个方面,1.大量性,2.多样性,大数据规模巨大,数据在不断更新变化,这些有价值的信息可能转瞬即逝,因此,在大数据时代,对数据的接收和处理思想都需要转变,如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
3.价值性,处理时效性高,因为大数据有价值信息存在时间短,要求能迅速有效地提取大量复杂数据中的有价值信息。
在如此海量的数据面前,处理数据的效率就是企业的生命。
4.高速性,四、如何理解大数据和分析大数据,维克多(VikorMayer-Schnberger)在其大数据时代一书中提到传统的数据分析思想应作三大转变:
一是转变抽样思想;二是转变数据测量的思想;三是不再探求难以捉摸的因果关系。
毫无疑问,上述三个转变均与统计研究工作息息相关,从统计研究工作角度如何理解?
1、转变抽样调查工作思想大数据时代,我们面对的数据样本就是过去资料的总和,样本就是总体,通过对所有与事物相关的数据进行分析,既有利于了解总体,又有利于了解局部。
总的来讲,传统的统计抽样调查方法有以下几个方面的不足可以在大数据时代得到改进。
(1)抽样框不稳定,随机取样困难。
(2)事先设定调查目的,会限制调查的内容和范围。
(3)样本量有限,抽样结果经不起细分。
(4)纠偏成本高,可塑性弱。
2、转变对数据精确性的要求在大数据时代,由于数据来源广泛和数据处理技术的不断进步,数据的不精确性是允许的,我们应该接受纷繁芜杂的各类数据,不应一味追求数据的精确性,以免因小失大。
(1)大数据时代,数据规模大,数据不精确性在所难免,盲目追求数据的精确性不可取。
(2)大数据时代,数据不精确性不仅不会破坏总体信息,还有利于了解总体。
大数据时代,越来越多的数据提供越来越多的信息,也会让人们越来越了解总体真实情况。
(3)大数据时代,允许不精确性是针对大数据,而不是统一标准。
大数据的不精确性是偶然产生的,而不是为了不精确性而制造不精确。
3、转变数据关系分析的重点在大数据时代,分析数据不再探求难以琢磨的因果关系,转而关注事物的相关关系。
需要注意的是,大数据时代事物之间大数据的相关分析与传统统计学相关分析并不完全相同,主要表现在以下几个方面。
(1)分析思路不同。
传统统计分析是一个“先假设,后关系”的分析思路。
大数据关系分析往往是直接计算现象之间的相依性,是既关联又关系。
(2)关系形式不同。
大数据时代,现象的关系很复杂,不仅可能是线性关系,更可能是非线性函数关系。
更一般的情况是,可能知道现象之间相依的程度,但并不清楚关系的形式。
譬如半结构化数据变量和非结构化数据变量之间可能存在某种关联关系,但没法知道变量之间关系的形式。
(3)关系目的不同。
大数据处理的是流式数据,由于数据规模的不断变化,变量间的因果关系具有时效性,往往存在“此一时,彼一时”的情况,探寻因果关系往往有点得不偿失。
五、大数据对统计学科和统计研究工作的影响,对于统计学科的发展而言,大数据时代带来的不仅是变革,更多的是统计学发展壮大的机会。
大数据将改变传统统计学研究具体问题的方法科学,改变统计研究的工作程序,改变统计学研究具体科学的深度和广度。
我们认为大数据对统计学科的发展将从如下几方面产生影响:
第一,大数据拓展了统计学的研究对象。
在大数据时代,不仅任何一种以结构数据度量的数量可以作为统计研究对象,而且不能用数量关系衡量的如文本、图片、视频、声音、动画、地理位置等半结构或非结构数据都可以作为统计研究的对象。
从某种意义上来说,大数据拓展了统计研究的对象,也扩展了统计研究工作的范畴。
第二,大数据影响统计计算的规范。
传统统计学根据一定的数据计算规范,如用平均数、方差、相对数等反映客观事物量的特征、量的界限、量的关系等等,并且可以根据具体计算规范计算具体数值。
然而,由于半结构化数据和非结构化数据并不能根据计算规范计算平均数、方差、相对数等数值。
显然,在大数据时代直接利用计算规范计算平均数、方差、相对数等指标将遇到挑战。
第三,大数据促进统计研究过程的变革。
在大数据时代,网络资料异常丰富,数据不再是通过试验或调查抽样的方式获得的,统计工作面对的数据就是总体数据,即样本就是总体。
在这种情况下,传统的数据收集方法不再可行,针对大数据的数据收集往往通过传感器自动采集数据,数据资料不再需要设计和人工收集。
大数据时代,统计研究的过程只包括数据整理与分析和数据的积累、开发与应用两个基本环节。
我们应该进一步明确,大数据从狭义的角度来讲,不仅是指数据规模巨大,还指数据结构复杂;从广义角度来讲,大数据还指处理大规模复杂数据的技术。
由于在大数据时代数据意味着信息,所有有价值的信息都源自对数据的处理。
大数据时代,数据对个人或家庭而言意味着良机,对厂商而言数据商机,对国家而言数据意味着发展契机。
对统计工作者而言,这种改变不仅意味着拓宽了统计研究的范畴、丰富了统计研究的内容、增强了统计学的生命力,还意味着统计工作及统计研究的四个转变。
(1)转变统计研究过程。
(2)转变统计研究方法。
(3)转变统计研究目的。
(4)转变统计研究工作思想。
六、大数据能带来哪些商业价值,预测消费行为,加快营运决策,开发效率工具,掌握市场脉搏,返回,2006年3月24日,西班牙服装品牌ZARA在中国的首家旗舰店在上海南京西路开始试营业。
ZARA的营销方式与众不同,针对消费者追求时尚多变的特点,改变过去以季为周期的消费习惯,平均一周上架两次新品。
他们从网络上搜集各种讨论时尚、服饰的信息和竞争对手的情报,再快速分析,将流行咨询反馈给设计师,一年共计可推出1.8万件系列服饰,但每个新系列一开始都少量出货,全球数百个分店每天汇报销售状况。
所有资料都传回ZARA的资料分析系统,再追加受欢迎的款式和尺寸,以达到更高的销售目标,用资料分析创造西班牙品牌传奇。
农夫山泉是中国最大瓶装水商,每天要将无数瓶装水运到各地,物流中心必须及时了解产品销售、运送情况,才能精准调货、补货,降低运送成本。
从2010年开始,因业务量快速增长,资料量剧增,传统数据库系统已无法负荷。
去年导入公司SAPHANA记忆体数据库技术,将报表产生速度从215秒缩短至2秒,快了100倍。
原本财务报表月底报账到资料出来需要7天左右,现在只需3天不到。
返回,返回,6度区隔(SixDegreesofSeparation)理论:
你和任何一个陌生人之间所间隔的人不会超过五个,也就是说,最多通过五个人你就能够认识任何一个陌生人。
Facebook、Twitter和Linkedln等社交网络产生了大量宝贵的社交数据,但是你怎样才能找出谁通过社交媒介进行联系?
他们在讨论些什么?
或者他们在哪儿?
通过挖掘这些社交数据,可以进行客户细分,实现有针对性的内容营销。
返回,SAS软件开发了一套程序,可以定期追踪几百万个采购资料,整理出商品的季节性,帮助商场了解消费者的兴趣变化,以及各个商品可以在多长时间内保持全价,或者应该在何时准备降价。
大数据时代,需要从互联网的海量信息中进行系统的周期性的数据挖掘,把我们需要结构化的数据从海量非结构化数据中提取出来。
传统的数据挖掘方法需要进一步拓展。
留给我们的启示,大数据的应用,必然导致人们对个人隐私安全的担忧。
如何在数据共享的同时保护个人隐私不受侵犯,成为一个突出的问题。
留给我们的思考,七、厦门大学数据挖掘研究中心,厦门大学数据挖掘研究中心(DataMiningResearchCenter,DMRC)组建于2006年,于2010年7月由厦门大学校长工作会议决议通过并正式成立,成为厦门大学直属的教学科研机构。
目前中心下设数据挖掘与商业智能研究所、社会调查与数据分析研究所、金融计量与投资决策研究所、生物信息分析研究所、社会服务办公室等五个部门,充分发挥中心在科学研究、人才培养、学术交流和资料信息建设、社会调查与咨询服务、商业智能与数据挖掘服务、云端计算开发等各个领域的优势力量。
社会服务,市场调查:
以科学抽样统计方法为基础,借助完善的计算机辅助电话调查系统,凭借专业数据、业务分析和研究能力,结合具体行业特色,全面开展各类市场调查服务。
决策支持:
凭借数据挖掘研究中心坚实智囊团力量,利用各类数据挖掘手段和技术,围绕企业或事业单位具体问题,因地制宜提出专业解决方案,提供决策支持。
商业智能:
依托专业数据资源,充分凭借数据挖掘研究中心在数据挖掘、统计学、计算机等方面的专业优势,借助多年数据挖掘和系统开发经验,提供灵活商业智能系统及业务经营工具。
数据分析:
借助中心在数据挖掘、统计学、信息系统分析与设计方面的人才优势和实践经验,提供针对各类海量数据的数据分析服务。
教育培训:
依托厦门大学经济学院优质师资力量,充分发挥高等院校教育资源,提供形式多样、灵活丰富的教育培训服务。
数据共享:
借助中心多年来调研累积数据成果,经开发整理后形成完善数据集,并提供数据共享服务,借助已逐步形成的教学科研软实力,中心已经构建起一支专门从事数据挖掘研究、特色鲜明、具有核心竞争力的学术创新团队。
特别值得一提的是,中心举办的“海西金融、旅游、消费信心指数发布会”已成为标志性品牌,在社会上引起强烈反响。
自2009年以来,中心发布的季度指数信心陆续被新华社、光明日报、中央人民广播电台、厦门日报、香港文汇报等各大媒体,以及凤凰网、中新网等百余家网络媒体发布、转载,逐渐成为帮助政府和社会大众准确掌握社会经济现状的风向标,对于推进福建扩大开放、促进海峡西岸经济社会协调发展具有重要的现实作用和深远的战略意义。
ThanksforYourPresence,AnyQuestions?
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 2013.12 06 广州 暨南大学 报告 内容