大数据毕业设计docx.docx
- 文档编号:18289394
- 上传时间:2023-08-15
- 格式:DOCX
- 页数:16
- 大小:23.42KB
大数据毕业设计docx.docx
《大数据毕业设计docx.docx》由会员分享,可在线阅读,更多相关《大数据毕业设计docx.docx(16页珍藏版)》请在冰点文库上搜索。
大数据毕业设计docx
大数据毕业设计
【篇一:
基于hadoop数据分析系统设计(优秀毕业设计)】
摘要随着云时代的来临,大数据也吸引越来越多的关注,企业在日常运营中生成、积累的用户网络行为数据。
这些数据是如此庞大,计量单位通常达到了pb、eb甚至是zb。
h
adoop作为一个开源的分布式文件系统和并行计算编程模型得到了广泛的部署和应用。
本文将介绍hadoop完全分布式集群的具体搭建过程与基于hive的数据分析平台的设计与实现。
关键字
hadoop,mapreduce,hive
abstractwiththeadventofcloud,bigdataalsoattractmoreandmoreattention,theenterpriseofthegenerationandaccumulationinthedailyoperationoftheusernetworkbehaviordata.thedataissolarge,themeasuringunitisusuallyachievedthepb,eb,andeventhezb.thehadoopdistributedfilesystemasanopensource,andparallelcomputing
programmingmodelhasbeenwidelydeployedandapplication.thisarticleintroduceshadoopcompletelydistributedclusterprocessofconcretestructures,andthedesignandimplementationofdataanalysisplatformbasedonthehive.
keywordshadoop,mapreduce,hive
第一章
第二章
第三章
3.1
3.2
3.3
3.4
3.5
3.6某某企业数据分析系统设计需求分析......................................................3hadoop简介..............................................................................................4hadoop单一部署......................................................................................7hadoop集群部署拓扑图.................................................................................7安装操作系统centos......................................................................................8hadoop基础配置...........................................................................................14ssh免密码登录............................................................................................17安装jdk.........................................................................................................18安装hadoop..................................................................................................19
3.6.1安装32位hadoop......................................................................................19
3.6.2安装64位hadoop......................................................................................28
3.7
3.8hadoop优化...................................................................................................32hive安装与配置............................................................................................33
3.8.1hive安装.....................................................................................................33
3.8.2使用mysql存储metastore.....................................................................33
3.8.3hive的使用.................................................................................................36
3.9hbase安装与配置..........................................................................................37
9.1hbase安装.....................................................................................................37
9.2hbase的使用.................................................................................................39
3.10集群监控工具ganglia..................................................................................43
第四章hadoop批量部署....................................................................................48
4.1安装操作系统批量部署工具cobbler..............................................................48
4.2安装hadoop集群批量部署工具ambari.........................................................54
第五章
第六章
第七章使用hadoop分析网站日志...................................................................63总结............................................................................................................67参考文献....................................................................................................67
致谢..............................................................................................................................68
第一章某某企业数据分析系统设计需求分析
某某企业成立于1999年,其运营的门户网站每年产生大概2t的日志信息,为了分析网站的日志,部署了一套oracle数据库系统,将所有的日志信息都导入oracle的表中。
随着时间的推移,存储在oracle数据库中的日志系统越来越大,查询的速度变得越来越慢,并经常因为查询的数据量非常大而导致系统死机。
日志信息的分析成为了xx企业急需解决的问题,考虑到单机分析的扩展性与成本问题,且xx企业当前有一部分服务器处于闲置状态,最终决定在现有服务器的基础上部署一套分布式的系统来对当前大量的数据进行分析。
结合淘宝目前已经部署成功的数据雷达系统,同时由于xx企业预算有限,为了节约资金,决定采用开源的hadoop来部署公司的数据分析系统。
?
采用hadoop集群优势:
1.高可靠性,能够维护多个工作数据副本,确保能够针对失败的节点重新分布
处理。
2.高扩展性,在计算机集簇间分配数据并完成计算,这些集簇可以很容易扩展
到数以千计的节点中去。
3.高效性,以并行的方式工作,通过并行处理加快处理速度。
4.高容错性,自动保存数据多个副本,并能够自动将失败任务重新分配。
5.廉价性,框架可以运行在任何普通的pc上。
?
采用hadoop集群劣势:
1.采用单master的设计,单master的设计极大地简化了系统的设计和实现,
由此带来了机器规模限制和单点失效问题。
2.编程复杂,学习曲线过于陡峭,让许多人难以深入。
3.开源性,在广大社区维护不断推进hadoop的发展的同时,一旦代码出现漏
洞并未被发现,而又被有心的人利用,将会对数据的安全造成毁灭性的后果。
4.缺乏认证,hadoop并没有对使用hadoop的权限进行细致的划分。
第二章hadoop简介
hadoop是apache软件基金会旗下的一个开源分布式计算平台。
以hadoop分布式文件系统和mapreduce为核心的hadoop为用户提供了系统底层细节透明的分布式基础架构。
hdfs的高容错性、高伸缩性等优点允许用户将hadoop部署在低廉的硬件上,形成分布式系统,mapreduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。
所以用户可以利用hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。
2.1hadoop生态系统
hadoop已经发展成为包含多个子项目的集合。
核心内容是mapreduce和hadoop分布式文件系统(dhfs)。
它也包含了common、avro、chukwa、hive、hbase等子项目,他们在核心层的基础上提供了高层服务,为hadoop的应用推广起到了重要作用。
如图2.1所示:
图2.1hadoop结构图
hadoopcore/common
从hadoop0.20版本开始,hadoop的core项目便更名为common.,它是hadoop体系最底层的一个模块,为hadoop各子项目提供各种工具,主要包括filesystem、prc和串行化库。
hive
hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为mapreduce任务进行运行。
其优点是学习成本低,可以通过类sql语句快速实现简单的mapreduce统计,不必开发专门的mapreduce应用,十分适合数据仓库的统计分
【篇二:
《大数据时代》正规毕业论文】
大数据时代
摘要:
随着网络信息化时代的日益普遍,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域,我们正处在一个数据爆炸性增长的大数据时代,大数据在社会经济、政治、文化,人们生活等方面产生深远的影响,大数据时代对人类的数据驾驭能力提出了新的挑战与机遇。
关键字:
大数据云计算海量发展影响
abstract:
asthenetworkinformationagehasbecomemorecommon,mobileinternet,socialnetwork,theelectroniccommerceoftheinternetgreatlyexpandthebordersandapplicationfields,weareinadatatheexplosivegrowthofbigdataera,largedatainthesocialeconomy,politics,culture,peoplelifeandotheraspectshavefar-reachinginfluence,thebigdataagetothehumandatatocontrolabilityputsforwardnewchallengesandopportunities.
keyword:
bigdatacloudcomputingmassdevelopmentinfluence
一、大数据时代产生的背景
进入2012年以来,大数据(bigdata)一词越来越多地被提及与使用,人们用它来描述和定义信息爆炸时代产生的海量数,它已经出现过在《纽约时报》、《华尔街时报》的专栏封面,进入美国白宫网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国君证劵、国泰君安、银河证劵等写进了投资推荐报告,大数据时代来临据。
有人说21世纪是数据信息时代,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。
我们在享受便利的同时,也无偿贡献了自己的“行踪”。
现在互联网不但知道对面是一只狗,还知道这只狗喜欢什么食物,几点出去遛弯,几点回窝睡觉。
我们不得不接受这个现实,每个人在互联网进入到大数据时代,都将是透明性存在。
各种数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。
大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。
正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基
二、什么是大数据?
大数据(bigdata)是指那些超过传统数据库系统处理能力的数据。
它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。
为了获取大数据中的价值,我们必须选择另一种方式来处理它。
数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成本才能提取这些信息。
如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。
而当今的各种资源,如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。
即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。
对于企业组织来讲,大数据的价值体现在两个方面:
分析使用和二次开发。
对大数据进行分析能揭示隐藏其中的信息。
例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。
对大数据的二次开发则是那些成功的网络公司的长项。
例如facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式。
这种通过大数据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和facebook它们都是大数据时代的创新者。
(一)、大数据四个特性
海量性:
企业面临着数据量的大规模增长。
例如,idc最近的报告预测称,到2020年,全球数据量将扩大50倍。
目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十tb到数pb不等。
简而言之,存储1pb数据将需要两万台配备50gb硬盘的个人电脑。
此外,各种意想不到的来源都能产生数据。
多样性:
一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。
然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。
其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。
高速性:
高速描述的是数据被创建和移动的速度。
在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。
企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。
根据imsresearch关于数据创建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。
易变性:
大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。
相较传统
的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。
传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。
目前,企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。
(二)、大数据三个特征除了有四个特性之外,大数据时代的数据还呈现出其他三个特征。
第一个特征是数据类型繁多。
包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
第二个特征是数据价值密度相对较低。
如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。
第三个特征是处理速度快,时效性要求高。
这是大数据区分于传统数据挖掘最显著的特征。
三、大数据时代对生活、工作的影响
大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。
“大数据”的影响,增加了对信息管理专家的需求。
事实上,大数据的影响并不仅仅限于信息通信产业,而是正在“吞噬”和重构很多传统行业,广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。
麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。
而在零售业中,数据分析的技术与手段更是得到广泛的应用,传统企业如沃尔玛通过数据挖掘重塑并优化供应链,新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。
大数据在个人隐私的方面,大量数据经常含有一些详细的潜在的能够展示有关我们的信息,逐渐引起了我们对个人隐私的担忧。
一些处理大数据公司需要认真的对待这个问题。
例如美国天睿资讯给人留下比较深刻印象的是他的一个科学家提出,我们不应该简单地服从法律方面的隐私保护问题,这些远远不够的,公司都应该遵从谷歌不作恶的原则,甚至更应该做出更积极的努力。
四、大数据时代的发展方向、趋势
虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。
未来,数据可能成为最大的交易商品。
但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。
因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。
在他看来,未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。
大数据的整体态势和发展趋势,主要体现在几个方面:
大数据与学术、大数据与人类的活动,大数据的安全隐私、关键应用、系统处理和整个产业的影响。
大数据整体态势上,数据的规模将变得更大,数据资源化、数据的价值凸显、数据私有化出现和联盟共享。
大数据的发展会催生许多新兴新职业,会产生数据分析师、数据科学家、数据工程师,有非常丰富的数据经验的人才会成为稀缺人才。
随着大数据的发展,数据共享联盟将逐渐壮大成为产业的核心一环。
随着大数据的共享越来越大,隐私问题也随之而来,比如说每天手机产生的通话、位置等等。
但这给带来了便利的同时也给带来了个人隐私的问题。
数据资源化,大数据在国家和企业和社会层面成为重要的战略资源,成为新的战略制高点和抢购的新焦点。
随着社会的不断发展,大数据对it技术架构的挑战,大数据的生态环境问题,大数据的应用及产业链将日益突出。
五、企业应如何应对大数据时代
近些年,大数据已经和云计算一样,成为时代的话题。
大数据是怎么产生的,商业机会在哪?
研究机会在哪?
这个概念孕育着一个怎样的未来?
企业如何应对?
一个好的企业应该未雨绸缪,从现在开始就应该着手准备,为企业的后期的数据收集和分析做好准备,企业可以从下面五个方面着手,这样当面临铺天盖地的大数据的时候,以确保企业能够快速发展,具体为下面五点。
(一)、以企业的数据为目标
几乎每个组织都可能有源源不断的数据需要收集,无论是社交网络还是车间传感器设备,而且每个组织都有大量的数据需要处理,it人员需要了解自己企业运营过程中都产生了什么数据,以自己的数据为基准,确定数据的范围。
(二)、以业务需求为准则
虽然每个企业都会产生大量数据,而且互不相同、多种多样的,这就需要企业it人员在现在开始收集确认什么数据是企业业务需要的,找到最能反映企业业务情况的数据。
(三)、重新评估企业基础设施
大数据需要在服务器和存储设施中进行收集,并且大多数的企业信息管理体系结构将会发生重要大变化,it经理则需要准备扩大他们的系统,以解决数据的不断扩大,it经理要了解公司现有it设施的情况,以组建处理大数据的设施为导向,避免一些不必要的设备的购买。
(四)、重视大数据技术
大数据是最近几年才兴起的词语,而并不是所有的it人员对大数据都非常了解,例如如今的hadoop,mapreduce,nosql等技术都是近年刚兴起的技术,企业it人员要多关注这方面的技术和工具,以确保将来能够面对大数据的时候做出正确的决定。
(五)、培训企业的员工
大多数企业最缺乏的是人才,而当大数据到临的时候,企业将会缺少这方面的采集收集分析方面的人才,对于一些公司,特别是那种人比较少的公司,工作人员面临大数据将是一种挑战,企业要在平时的时候多对员工进行这方面的培训,以确保在大数据到来时,员工也能适应相关的工作。
做到上面的几点,当大数据时代来临的时候,面临大量数据将不是束手无策,而是成竹在胸,而从数据中得到的好处也将促进企业快速发展。
参考资料
[1]李建义.数据库原理及开发.北京:
中国水利水电出版社,2005
[4]大数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 毕业设计 docx