高性能计算实验大作业.docx
- 文档编号:14092354
- 上传时间:2023-06-20
- 格式:DOCX
- 页数:15
- 大小:204.34KB
高性能计算实验大作业.docx
《高性能计算实验大作业.docx》由会员分享,可在线阅读,更多相关《高性能计算实验大作业.docx(15页珍藏版)》请在冰点文库上搜索。
高性能计算实验大作业
大数据处理技术研究
姓名:
;学号:
1502;专业:
模式识别与智能系统
摘要:
本文详细介绍了大数据的相关概念及其对应的处理方法,列举了大数据处理技术在当代计算机处理中的应用,并简要的解释了Hadoop的相关概念,展望了大数据处理技术的发展方向。
关键词:
大数据Hadoop高性能计算
1.研究背景:
大数据浪潮汹涌来袭,与互联网的发明一样,这绝不仅仅是信息技术领域的革命,更是在全球范围启动透明政府、加速企业创新、引领社会变革的利器。
大数据,IT行业的又一次技术变革,大数据的浪潮汹涌而至,对国家治理、企业决策和个人生活都在产生深远的影响,并将成为云计算、物联网之后信息技术产业领域又一重大创新变革。
未来的十年将是一个“大数据”引领的智慧科技的时代、随着社交网络的逐渐成熟,移动带宽迅速提升、云计算、物联网应用更加丰富、更多的传感设备、移动终端接入到网络,由此而产生的数据及增长速度将比历史上的任何时期都要多、都要快。
2.大数据定义:
“大数据”是一个涵盖多种技术的概念,简单地说,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
IBM将“大数据”理念定义为4个V,即大量化(Volume)、多样化(Variety)、快速化(Velocity)及由此产生的价值(Value)。
如下图;
Variety:
IVIanageandbenefitfromdiverse
datatypesanddatastructures
Analyzestreamingdataandlargevolumesofpersistentdata
Scalefromterabytestozettabytes
Establishconfidenceindata,informationandsofutions
3.大数据技术的发展:
大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值,而且未来急剧增长的数据迫切需要寻求新的处理技术手段。
在“大数据”(Bigdata)时代,通过互联网、社交网络、物联网,人们能够及时全面地获得大信息。
同时,信息自身存在形式的变化与演进,也使得作为信息载体的数据以远超人们想象的速度迅速膨胀。
云时代的到来使得数据创造的主体由企业逐渐转向个体,而个体所产生的绝大部分数据为图片、文档、视频等非结构化数据。
信息化技术的普及使得企业更多的办公流程通过网络得以实现,由此产生的数据也以非结构化数据为主。
预计到2012年,非结构化数据将达到互联网整个数据量的75%以上。
用于提取智慧
的“大数据”,往往是这些非结构化数据。
传统的数据仓库系统、BI、链路挖掘
等应用对数据处理的时间要求往往以小时或天为单位。
但“大数据”应用突出强
调数据处理的实时性。
在线个性化推荐、股票交易处理、实时路况信息等数据处理时间要求在分钟甚至秒级。
而“大数据”的多样性决定了数据采集来源的复杂性,从智能传感器到社交网络数据,从声音图片到在线交易数据,可能性是无穷无尽的。
选择正确的数据来源并进行交叉分析可以为企业创造最显著的利益。
随着数据源的爆发式增长,数据的多样性成为“大数据”应用亟待解决的问题。
例如如何实时地及通过各种数据库管理系统来安全地访问数据,如何通过优化存储策略,评估当前的数据存储技术并改进、加强数据存储能力,最大限度地利用现有的存储投资。
从某种意义上说,数据将成为企业的核心资产。
“大数据”不仅是一场技术变革,更是一场商业模式变革。
在“大数据”概念提出之前,尽管互联网为传统企业提供了一个新的销售渠道,但总体来看,二者平行发展,鲜有交集。
我们可以看到,无论是Google通过分析用户个人信息,根据用户偏好提供精准广告,还是Facebook将用户的线下社会关系迁移在线上,构造一个半真实的实名帝国,但这些商业和消费模式仍不能脱离互联网,传统企业仍无法嫁接到互联网中。
同时,传统企业通过传统的用户分析工具却很难获得大范围用户的真实需求。
4.大数据技术组成:
大数据技术由四种技术构成,它们包括:
4.1分析技术
分析技术意味着对海量数据进行分析以实时得出答案,由于大数据的特殊性,大数据分析技术还处于发展阶段,老技术会日趋完善,新技术会更多出现。
大数据分析技术涵盖了以下的的五个方面
4.1.1可视化分析
数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。
数据图像化可以让数据自己说话,让用户直观的感受到结果。
4.1.2数据挖掘算法
图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。
分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。
这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。
4.1.3预测分析能力
数据挖掘可以让分析师对数据承载信息更快更好地消化理解,进而提升判断的准确性,而预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。
4.1.4语义引擎
非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。
语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。
4.1.5数据质量和数据管理
数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。
我们知道大数据分析技术最初起源于互联网行业。
网页存档、用户点击、商品信息、用户关系等数据形成了持续增长的海量数据集。
这些大数据中蕴藏着大量可以用于增强用户体验、提高服务质量和开发新型应用的知识,而如何高效和准确的发现这些知识就基本决定了各大互联网公司在激烈竞争环境中的位置。
首先,以Google为首的技术型互联网公司提出了MapReduce勺技术框架,禾U用廉价的PC服务器集群,大规模并发处理批量事务。
4.2存储数据库
存储数据库(In-MemoryDatabases)让信息快速流通,大数据分析经常会用到存储数据库来快速处理大量记录的数据流通。
比方说,它可以对某个全国性的连锁店某天的销售记录进行分析,得出某些特征进而根据某种规则及时为消费者提供奖励回馈。
但传统的关系型数据库严格的设计定式、为保证强一致性而放弃性能、可扩
展性差等问题在大数据分析中被逐渐暴露。
随之而来,NoSQ数据存储模型开始
风行。
NoSQL也有人理解为NotOnlySQL,并不是一种特定的数据存储模型,它是一类非关系型数据库的统称。
其特点是:
没有固定的数据表模式、可以分布式和水平扩展。
NoSQL并不是单纯的反对关系型数据库,而是针对其缺点的一种补充和扩展。
典型的NoSQL数据存储模型有文档存储、键-值存储、图存储、对象数据库、列存储等
NoSQL数据库是一种建立在云平台的新型数据处理模式,NoSQL在很多情况
下又叫做云数据库。
由于其处理数据的模式完全是分布于各种低成本服务器和存储磁盘,因此它可以帮助网页和各种交互性应用快速处理过程中的海量数据。
它为Zynga、AOL、Cisco以及其它一些企业提供网页应用支持。
正常的数据库需要将数据进行归类组织,类似于姓名和帐号这些数据需要进行结构化和标签化。
但是NoSQL数据库则完全不关心这些,它能处理各种类型的文档。
在处理海量数据同时请求时,它也不会有任何问题。
比方说,如果有1000万人同时登录某个Zynga游戏,它会将这些数据分布于全世界的服务器并通过它们来进行数据处理,结果与1万人同时在线没什么两样。
现今有多种不同类型的NoSQ摸式。
商业化的模式如Couchbase10gen的mongoDB以及Oracle的NoSQL;开源免费的模式如CouchDE和Cassandra;还有亚马逊最新推出的NoSQ云服务。
4.3分布式计算技术
分布式计算结合了NoSQL与实时分析技术,如果想要同时处理实时分析与NoSQL数据功能,那么你就需要分布式计算技术。
分布式技术结合了一系列技术,可以对海量数据进行实时分析。
更重要的是,它所使用的硬件非常便宜,因而让这种技术的普及变成可能。
SGI的SunnySundstrom解释说,通过对那些看起来没什么关联和组织的数据进行分析,我们可以获得很多有价值的结果。
比如说可以分发现一些新的模式或者新的行为。
运用分布式计算技术,银行可以从消费者的一些消费行为和模式中识别网上交易的欺诈行为。
分布式计算技术让不可能变成可能,分布式计算技术正引领着将不可能变为可能。
SkyboxImaging就是一个很好的例子。
这家公司通过对卫星图片的分析得出一些实时结果,比如说某个城市有多少可用停车空间,或者某个港口目前有多少船只。
它们将这些实时结果卖给需要的客户。
没有这个技术,要想快速便宜的分析这么大量卫星图片数据将是不可能的。
分布式计算技术是Google的核心,也是Yahoo的基础,目前分布式计算技术是基于Google创建的技术,但是却最新由Yahoo所建立。
Google总共发表了两篇论文,2004年发表的叫做MapReduce的论文介绍了如何在多计算机之间进行数据处理;另一篇于2003年发表,主要是关于如何在多服务器上存储数据。
来自于Yahoo的工程师DougCutting在读了这两篇论文后建立了分布式计算平台,以他儿子的玩具大象命名。
而Hadoop作为一个重量级的分布式处理开源框架已经在大数据处理领域有所作为
5.Hadoop--大数据处理的核心技术
大数据技术涵盖了硬软件多个方面的技术,目前各种技术基本都独立存在于存储、开发、平台架构、数据分析挖掘的各个相对独立的领域。
这一部分主要介绍和分析大数据处理的核心技术——Hadoop。
5.1Hadoop的组成
大数据不同于传统类型的数据,它可能由TB甚至PB级信息组成,既包括结构化数据,也包括文本、多媒体等非结构化数据。
这些数据类型缺乏一致性,使得标准存储技术无法对大数据进行有效存储,而且我们也难以使用传统的服务器和SAN方法来有效地存储和处理庞大的数据量。
这些都决定了“大数据”需要不同的处理方法,而Hadoop目前正是广泛应用的大数据处理技术。
Hadoop是一个基于Java的分布式密集数据处理和数据分析的软件框架。
该框架在很大程度上受Google在2004年白皮书中阐述的MapReduce的技术启发。
Hadoop主要组件包含如下图:
HadoopCommon通用模块,
支持其他Hadoop模块
HadoopDistributedFileSystem(HDF$:
分布式文件系统,用以提供高流量的应用数据访问
HadoopYARN支持工作调度和集群资源管理的框架
HadoopMapReduce针对大数据的、灵活的并行数据处理框架
其他相关的模块还有:
ZooKeeper:
高可靠性分布式协调系统
Oozie:
负责MapReduce乍业调度
HBase可扩展的分布式数据库,可以将结构性数据存储为大表
Hive:
构建在MapRudece之上的数据仓库软件包
Pig:
架构在Hadoop之上的高级数据处理层
在Hadoop框架中,最底层的HDF苗储Hadoop集群中所有存储节点上的文件。
HDFS勺架构是基于一组特定的节点构建的。
这些节点包括一个NameNod和大量的DataNoda存储在HDFS^的文件被
分成块,然后将这些块复制到多个计算机中(DataNode)。
这与传统的RAID架构
大不相同。
块的大小(通常为64MB和复制的块数量在创建文件时由客户机决定。
NameNod可以控制所有文件操作。
HDF胴部的所有通信都基于标准的TCP/IP协议。
NameNod在HDFS内部提供元数据服务,负责管理文件系统名称空间和控制外部客户机的访问。
它决定是否将文件映射到DataNode上的复制块上。
DataNode通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。
它是GoogleMapReduce的开源实现。
MapReduce技术是一种简洁的并行计算模型,它在系统层面解决了扩展性、容错性等问题,通过接受用户编写的Map函数和Reduce函数,自动地在可伸缩的大规模集群上并行执行,从而可以处理和分析大规模的数据[6]。
Hadoop提供了大量的接口和抽象类,从而为Hadoop应用
程序开发人员提供许多工具,可用于调试和性能度量等。
在Hadoop应用实例中,一个代表客户机在单个主系统上启动MapReduce的应用程序称为JobTracker。
类似于NameNode它是Hadoop集群中唯一负责控制MapReduce应用程序的系统。
在应用程序提交之后,将提供包含在HDFS中的输入和输出目录。
JobTracker
使用文件块信息(物理量和位置)确定如何创建其他TaskTracker从属任务。
MapReduce应用程序被复制到每个出现输入文件块的节点,将为特定节点上的每个文件块创建一个唯一的从属任务。
每个TaskTracker将状态和完成信息报告给JobTracker。
如图显示一个示例集群中的工作分布,如下图:
5.2Hadoop的优点:
Hadoop能够使用户轻松开发和运行处理大数据的应用程序。
它主要有以下几
个优点:
5.2.1高可靠性。
Hadoop按位存储和处理数据的能力值得人们信赖。
5.2.2高扩展性。
Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
5.2.3高效性。
Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
5.2.4高容错性。
Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分
配。
Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。
Hadoop上的应用程序也可以使用其他语言编写,比如C++
5.3Hadoop的不足
Hadoop作为一个处理大数据的软件框架,虽然受到众多商业公司的青睐,
但是其自身的技术特点也决定了它不能完全解决大数据问题。
在当前Hadoop的
设计中,所有的metadata操作都要通过集中式的NameNode来进行,NameNode有可能是性能的瓶颈。
当前Hadoop单一NameNode单一Jobtracker的设计严重制约了整个Hadoop可扩展性和可靠性。
首先,NameNod和JobTracker是整个系统中明显的单点故障源。
再次,单一NameNode勺内存容量有限,使得Hadoop集群的节点数量被限制到2000个左右,能支持的文件系统大小被限制在10-50PB,最多能支持的文件数量大约为1.5亿左右。
实际上,有用户抱怨其集群的NameNod重启需要数小时,这大大降低了系统的可用性。
随着Hadoop被广泛使用,面对各式各样的需求,人们期望Hadoop能提供更多特性,比如完全可读写的文件系统、Snapshot、Mirror等等。
这些都是当前版本的Hadoop不支持,但是用户又有强烈需求的。
5.4主要商业性“大数据”处理方案
“大数据”被科技企业看作是云计算之后的另一个巨大商机,包括IBM、谷
歌、亚马逊和微软在内的一大批知名企业纷纷掘金这一市场。
此外,很多初创企业也开始加入到大数据的淘金队伍中。
Hadoop是非结构数据库的代表,低成本、高扩展性和灵活性等优势使其成为各种面向大数据处理分析的商业服务方案的首选。
Oracle、IBMMicrosoft三大商业数据提供商是Hadoop的主要支持者。
很多知名企业都以Hadoop技术为基础提供自己的商业性大数据解决方案。
这一部分主要介绍以Hadoop为基础的典型商业性大数据解决方案。
5.4.1IBMInfoSphere大数据分析平台
IBM于2011年5月推出的InfoSphere大数据分析平台是一款定位为企业级的大数据分析产品。
该产品包括BigInsights和Streams,二者互补,Biglnsights基于Hadoop对大规模的静态数据进行分析,它提供多节点的分布式计算,可以随时增加节点,提升数据处理能力。
Streams采用内存计算方式分析实时数据。
它们将包括HadoopMapReduc在内的开源技术紧密地与IBM系统集成起来。
研究Hadoop这样开源技术的人很多,但是IBM这次是真正将其变成了企业级的应用,针对不同的人员增加不同的价值。
InfoSphereBigInsights1.3的存储和运算框架采用了开源的HadoopMapReduce,同时针对Hadoop框架进行了改造,采用了IBM特有的通用并行文件系统一一GPFS利用GPFS的目的是为了避免单点故障,保证可用性。
BigInsights中还有两个分析产品——Cognos和SPSS这两个分析产品在传统功能上加强了文本分析的功能,提供
了一系列文本分析工具,并使用高级语言进行自定义规则,如文本格式转换等。
目前BigInsights提供两种版本,一种是企业版(EnterpriseEdition),用于企业级的大数据分析解决方案。
另一种是基础版(BasicEdition),去掉了企业版中的大部分功能,用户可以免费下载,主要提供给开发人员和合作伙伴试用。
其最大的特点就是内存分析,利用多节点PC服务器的内存来处理大批量的数据
分析请求。
Streams的特点就是“小快灵”,数据是实时流动的,其分析反应速度可以控制在毫秒级别,而BigInsights的分析是批处理,反应速度无法同Streams相比。
总体来说,二者的设计架构不同,也用于处理不同的大数据分析需求,并可以形成良好的互补。
InfoSphere平台仅仅是IBM大数据解决方案中的一部分。
IBM大数据平台包括4大部分:
信息整合与治理组件、基于开源ApacheHadoop的框架而实现平台、加速器,以及包含可视化与发现、应用程序开发、系统管理的上层应用。
通过IBM的解决方案可以看出,解决大数据问题不能仅仅依靠Hadoop。
5.4.2OracleBigDataApplianc
OracleBigDataApplianee准确地说是一款硬件产品,添加了Hadoop装
载器、应用适配器以及Oracle新的NoSQL数据库,主要目的是为了将非结构化数据加载到关系型数据库中去,并对软硬件的集成做了一些优化。
Oracle
BigData机包括开源ApacheHadoop、OracleNoSQL数据库、Oracle数据集成Hadoop应用适配器、OracleHadoop装载器、OpenSourceDistributionofR
OracleLinux和OracleJavaHotSpot虚拟机。
它能够快速、便捷地与Oracle数据库11g、OracleExadata数据库云服务器和OracleExalytics商务智能云服务器集成。
分析师和统计人员可以运行现有的R应用,并利用R客户端直接处理存储在Oracle数据库11g中的数据,从而极大地提高可扩展性、性能和安全性。
5.5其他“大数据”解决方案
“大数据”解决方案并非只有Hadoop—种,许多知名企业还提供了其他的解决方案。
5.5.1EMC
EMC提供了两种大数据存储方案,即Isilon和Atmos。
Isilon能够提供无限的横向扩展能力,Atmos是一款云存储基础架构,在内容服务方面,Atmos是
很好的解决方案。
在数据分析方面,EMC提供的解决方案、提供的产品是
Greenplum,Greenplum有两个产品,第一是GreenplumDatabase,GreenplumDatabase是大规模的并行成立的数据库,它可以管理、存储、分析PB量级的一些结构性数据,它下载的速度非常高,最高可以达到每小时10TB,速度非常惊人。
这是EMC可以提供给企业、政府,用来分析海量的数据。
但是GreenplumDatabase面对的是结构化数据。
很多数据超过90%是非结构化数据,EMC有另外一个产品是GreenplumHDGreenplumHD可以把非结构化的数据或者是半结构化的数据转换成结构化数据,然后让GreenplumDatabase去处理。
5.5.2BigQuery
BigQuery是Google推出的一项Web服务,用来在云端处理大数据。
该服务让开发者可以使用Google的架构来运行SQL语句对超级大的数据库进行操作。
BigQuery允许用户上传他们的超大量数据并通过其直接进行交互式分析,从而不必投资建立自己的数据中心。
Google曾表示BigQuery引擎可以快速扫描高达70TB未经压缩处理的数据,并且可马上得到分析结果。
大数据在云端模型具备很多优势,BigQuery服务无需组织提供或建立数据仓库。
而BigQuery在安全性和数据备份服务方面也相当完善。
免费帐号可以让用户每月访问高达100GB的数据,用户也可以付费使用额外查询和存储空间。
5.6“大数据”与科技文献信息处理
“大数据”目前主要指医学、天文、地理、Web日志、多媒体信息等数据,
鲜有提及文献信息。
事实上,现在的科技文献信息日益凸显出“大数据”的特征,主要表现在以下几个方面:
更新周期缩短;数量庞大;文献的类型多样;文献载体数字化;文献语种多样化;文献内容交叉;文献信息密度大。
科技文献中所含的信息类型多样,既有结构性数据,也有非结构性文本和公式,如何利用“大数据”技术对文献内容进行分析,挖掘用户访问日志、评价反馈等数据的价值,为用户提供服务成为科技信息服务业急需思考和解决的问题。
在科技文献信息处理中,文本分析技术、语义计算技术、数据安全需要与“大数据”解决方案结合起来考虑实施,这样才能更有效地提供知识服务。
6.大数据处理技术发展前景:
随着大数据时代的来临,应用越来越广,其发展前景是很光明的。
6.1大数据复杂度降低
大数据技术的落地将会有两个特点:
一个是对MapReducd^赖越来越少,另外一个是会把Hadoop技术深入的应用到企业的软件架构中。
对于第一个特点,像Cloudera的Impala和微软的PolyBase这样的软件会得到充分发展,他们绕开了MapReduce直接对存在HDFS中的数据进行处理。
对于第二个特点,大规模的使用Hadoop是个必然趋势,渐渐的就会形成行业的标准,进而成为更有价值的软件基础,而不仅是自己内部使用。
6.2大数据细分市场
大数据相关技术的发展,将会创造出一些新的细分市场。
例如,以数据分析和处理为主的高级数据服务,将出现以数据分析作为服务产品提交的分析即服务(AnalyzeasaService)业务;将多种信息整合管理,创造对大数据统一的访问和分析的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 性能 计算 实验 作业