换一换

冰点文库 > 资源分类 > DOCX文档下载

预览

国家开放大学《大数据技术》形考任务1-4参考答案.docx

资源ID：12221665 资源大小：40.04KB 全文页数：17页
资源格式： DOCX 下载积分：20金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要20金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

国家开放大学《大数据技术》形考任务1-4参考答案.docx

1、国家开放大学大数据技术形考任务1-4参考答案形考任务1一、单选题1、第一次信息化浪潮主要解决什么问题？A.信息传输B.信息处理C.信息爆炸D.信息转换2、下面哪个选项属于大数据技术的“数据存储和管理”技术层面的功能？A.利用分布式文件系统、数据仓库、关系数据库等实现对结构化、半结构化和非结构化海量数据的存储和管理B.利用分布式并行编程模型和计算框架，结合机器学习和数据挖掘算法，实现对海量数据的处理和分析C.构建隐私数据保护体系和数据安全体系，有效保护个人隐私和数据安全D.把实时采集的数据作为流计算系统的输入，进行实时处理分析3、在大数据的计算模式中，流计算解决的是什么问题？A.针对大规模数据的

2、批量处理B.针对大规模图结构数据的处理C.大规模数据的存储管理和查询分析D.针对流数据的实时计算4、下列哪个不属于HADoop的特性？A.成本高B.高可靠性C.高容错性D.运行在Linux平台上5、HADoop框架中最核心的设计是什么？A.为海量数据提供存储的HDFS和对数据进行计算的MApReDuCeB.提供整个HDFS文件系统的NAmeSpACe命名空间管理、块管理等所有服务C.HADoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中D.HADoop被视为事实上的大数据处理标准6、在一个基本的HADoop集群中，DAtANoDe主要负责什么？A.负责执行由JoBTrACker指

3、派的任务B.协调数据计算任务C.负责协调集群中的数据存储D.存储被拆分的数据块7、分布式文件系统指的是什么？A.把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群B.用于在HADoop与传统数据库之间进行数据传递C.一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统D.一种高吞吐量的分布式发布订阅消息系统，可以处理消费者规模的网站中的所有动作流数据8、下面哪一项不属于计算机集群中的节点？A.主节点MAsterNoDeB.源节点SourCeNoDeC.名称结点NAmeNoDeD.从节点SlAveNoDe9、在HDFS中，默认一个块多大？A.64MBB.32KBC.1

4、28KBD.16KB10、下列哪一项不属于HDFS采用抽象的块概念带来的好处？A.简化系统设计B.支持大规模文件存储C.强大的跨平台兼容性D.适合数据备份二、多选题1、第三次信息化浪潮的标志是哪些技术的兴起？A.个人计算机B.物联网C.云计算D.大数据2、信息科技为大数据时代提供哪些技术支撑？A.存储设备容量不断增加B.网络带宽不断增加C.CPU处理能力大幅提升D.数据量不断增大3、大数据具有哪些特点？A.数据的“大量化”B.数据的“快速化”C.数据的“多样化”D.数据的“价值密度比较低”4、HADoop的特性包括哪些？A.高可扩展性B.支持多种编程语言C.成本低D.运行在Linux平台上5、

5、下面哪个是HADoop2.0的组件？A.ResourCeMAnAgerB.JoBTrACkerC.TAskTrACkerD.NoDeMAnAger6、一个基本的HADoop集群中的节点主要包括什么？A.DAtANoDe：存储被拆分的数据块B.JoBTrACker：协调数据计算任务C.TAskTrACker：负责执行由JoBTrACker指派的任务D.SeConDAryNAmeNoDe：帮助NAmeNoDe收集文件系统运行的状态信息7、HDFS要实现以下哪几个目标？A.兼容廉价的硬件设备B.流数据读写C.大数据集D.复杂的文件模型8、HDFS特殊的设计，在实现优良特性的同时，也使得自身具有一些应

6、用局限性，主要包括以下哪几个方面？A.较差的跨平台兼容性B.无法高效存储大量小文件C.不支持多用户写入及任意修改文件D.不适合低延迟数据访问9、HDFS采用抽象的块概念可以带来以下哪几个明显的好处？A.支持大规模文件存储B.支持小规模文件存储C.适合数据备份D.简化系统设计10、在HDFS中，名称节点（NAmeNoDe）主要保存了哪些核心的数据结构？A.FsImAgeB.DN8C.BloCkD.EDitLog形考任务2一、单选题1、下列关于BigTABle的描述，哪个是错误的？A.爬虫持续不断地抓取新页面，这些页面每隔一段时间地存储到BigTABle里B.BigTABle是一个分布式存储系统C

7、.BigTABle起初用于解决典型的互联网搜索问题D.网络搜索应用查询建立好的索引，从BigTABle得到网页2、下列选项中，关于HB.A.se和BigTABle的底层技术对应关系，哪个是错误的？A.GFS与HDFS相对应B.GFS与Zookeeper相对应C.MApReDuCe与HADoopMApReDuCe相对应D.ChuBBy与Zookeeper相对应3、在HBAse中，关于数据操作的描述，下列哪一项是错误的？A.HBAse采用了更加简单的数据模型，它把数据存储为未经解释的字符串B.HBAse操作不存在复杂的表与表之间的关系C.HBAse不支持修改操作D.HBAse在设计上就避免了复杂的

8、表和表之间的关系4、下列哪个不属于NoSQL数据库的特点？A.灵活的可扩展性B.灵活的数据模型C.与云计算紧密融合D.数据存储规模有限5、下面关于NoSQL和关系数据库的简单比较，哪个是错误的？A.RDBMS有关系代数理论作为基础，NoSQL没有统一的理论基础B.NoSQL很难实现横向扩展，RDBMS可以很容易通过添加更多设备来支持更大规模的数据C.RDBMS需要定义数据库模式，严格遵守数据定义，NoSQL一般不存在数据库模式，可以自由灵活定义并存储各种不同类型的数据D.RDBMS借助于索引机制可以实现快速查询，很多NoSQL数据库没有面向复杂查询的索引6、下列哪一项不属于NoSQL的四大类型

9、？A.文档数据库B.图数据库C.列族数据库D.时间戳数据库7、下列哪个不属于云计算的优势？A.按需服务B.随时服务C.通用性D.价格不菲8、下列关于云数据库的描述，哪个是错误的？A.云数据库是部署和虚拟化在云计算环境中的数据库B.云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法C.云数据库价格不菲，维护费用极其昂贵D.云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点9、下列哪一个不属于云数据库产品？A.本地安装MySQLB.阿里云RDSC.OrACleClouDD.百度云数据库10、UMP系统是构建在一个大的集群之上的，下列哪一项不属于系统向用户提供的功

10、能？A.读写分离B.分库分表C.数据安全D.资源合并二、多选题1、关系数据库已经流行很多年，并且HADoop已经有了HDFS和MApReDuCe，为什么需要HBAse？A.HADoop可以很好地解决大规模数据的离线批量处理问题，但是，受限于HADoopMApReDuCe编程框架的高延迟数据处理机制，使得HADoop无法满足大规模数据实时处理应用的需求上B.HDFS面向批量访问模式，不是随机访问模式C.传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题D.传统关系数据库在数据结构变化时一般需要停机维护；空列浪费存储空间2、HBAse与传统的关系数据库的区别主要体现在以下哪几

11、个方面？A.数据类型B.数据操作C.存储模式D.数据维护3、HBAse访问接口类型包括哪些？A.NAtiveJAvAAPIB.HBAseShellC.ThriftGAtewAyD.RESTGAtewAy4、关系数据库已经无法满足WeB2.0的需求，主要表现在以下几个方面？A.无法满足海量数据的管理需求B.无法满足数据高并发的需求C.无法满足高可扩展性和高可用性的需求D.使用难度高5、下列关于MySQL集群的描述，哪些是正确的？A.复杂性：部署、管理、配置很复杂B.数据库复制：MySQL主备之间一般采用复制方式，很多时候是异步复制C.扩容问题：如果系统压力过大需要增加新的机器，这个过程涉及数据重

12、新划分D.动态数据迁移问题：如果某个数据库组压力过大，需要将其中部分数据迁移出去6、关系数据库引以为傲的两个关键特性完善的事务机制和高效的查询机制，到了WeB2.0时代却成了鸡肋，主要表现在以下哪几个方面？A.WeB2.0网站系统通常不要求严格的数据库事务B.WeB2.0网站系统基本上不用关系数据库来存储数据C.WeB2.0并不要求严格的读写实时性D.WeB2.0通常不包含大量复杂的SQL查询7、云数据库具有以下哪些特性？A.动态可扩展B.高可用性C.免维护D.安全8、下列关于云数据库的描述，哪些是正确的？A.AmAzon是云数据库市场的先行者B.GoogleClouDSQL是谷歌公司推出的基

13、于MySQL的云数据库C.从数据模型的角度来说，云数据库并非一种全新的数据库技术D.云数据库并没有专属于自己的数据模型9、UMP系统架构设计遵循了以下哪些原则？A.保持单一的系统对外入口，并且为系统内部维护单一的资源池B.消除单点故障，保证服务的高可用性C.保证系统具有良好的可伸缩，能够动态地增加、删减计算与存储节点D.保证分配给用户的资源也是弹性可伸缩的10、UMP系统架构依赖的哪些开源组件？A.MnesiAB.LVSC.RABBitMQD.ZooKeeper形考任务3一、单选题1、下列传统并行计算框架，说法错误的是哪一项？A.刀片服务器、高速网、SAN，价格贵，扩展性差上B.共享式（共享内

14、存/共享存储），容错性好C.编程难度高D.实时、细粒度计算、计算密集型2、下列关于MApReDuCe模型的描述，错误的是哪一项？A.MApReDuCe采用“分而治之”策略B.MApReDuCe设计的一个理念就是“计算向数据靠拢”C.MApReDuCe框架采用了MA.ster/SlAve架构D.MApReDuCe应用程序只能用JAvA来写3、HADoop1.0的核心组件仅指MApReDuCe和HDFS，不包括HADoop生态系统内的Pig、Hive、HBAZe等其他组件，下列哪项是它的不足？A.抽象层次高B.表达能力有限，抽象层次低，需人工编码C.价格昂贵D.可维护性低4、下面哪个选项不属于HA

15、Doop1.0的问题？A.单一名称节点，存在单点失效问题B.单一命名空间，无法实现资源隔离C.资源管理效率低D.很难上手5、下列有关Hive和ImpAlA的对比错误的是:A.Hive与ImpAlA使用相同的元数据B.Hive与ImpAlA中对SQL的解释处理比较相似，都是通过词法分析生成执行计划C.Hive适合于长时间的批处理查询分析，而ImpA.lA.适合于实时交互式SQL查询D.Hive在内存不足以存储所有数据时，会使用外存，而ImpAlA也是如此6、下列关于Hive基本操作命令的解释错误的是:A.CreAteDAtABAseuserDB;/创建数据库userDBB.CreAtetABle

16、ifnotexistsusriDBigint,nAmestring,Ageint;/如果usr表不存在，创建表usr，含三个属性iD,nAme,AgeC.loADDAtAloCAlinpAth/usr/loCAl/DAtAoverwriteintotABleusr;/把目录/usr/loCAl/DAtA下的数据文件中的数据以追加的方式装载进usr表D.insertoverwritetABlestuDentseleCt*fromuserwhereAge10;/向表usr1中插入来自usr表的A.ge大于10的数据并覆盖stuDent表中原有数据7、下面哪个不可能是Hive的执行引擎：A.MApR

17、eDuCeB.TezC.StormD.Spark8、下列关于Spark的描述，错误的是哪一项？A.Spark最初由美国加州伯克利大学UCBerkeley的AMP实验室于2009年开发B.Spark在2014年打破了HAdoop保持的基准排序纪录.C.Spark用十分之一的计算资源，获得了比HADoop快3倍的速度D.Spark运行模式单一9、下列关于SpArk的描述，错误的是哪一项？A.使用DAG执行引擎以支持循环数据流与内存计算析B.可运行于独立的集群模式中，可运行于HADoop中，也可运行于AmAzonEC2等云环境中C.支持使用SCAlA、JAvA、Python和R语言进行编程，但是不可

18、以通过SpArkShell进行交互式编程D.可运行于独立的集群模式中，可运行于HADoop中，也可运行于AmAzonEC2等云环境中10、下列关于SCAlA特性的描述，错误的是哪一项？A.SCAlA语法复杂，但是能提供优雅的API计算B.SCAlA具备强大的并发性，支持函数式编程，可以更好地支持分布式系统C.SCAlA兼容JAvA，运行速度快，且能融合到HADoop生态圈中D.SCAlA是SpArk的主要编程语言二、多选题1、MApReDuCe相较于传统的并行计算框架有什么优势？A.非共享式，容错性好B.普通PC机，便宜，扩展性好C.编程简单，只要告诉MApReDuCe做什么即可D.批处理、非

19、实时、数据密集型2、MApReDuCe体系结构主要由以下那几个部分构成？A.ClientB.JoBTrACkerC.TAskTrACkerD.TAsk3、下列关于MApReDuCe的体系结构的描述，说法正确的有？A.用户编写的MApReDuCe程序通过C.lient提交到JoBTrACker端B.JoBTrACker负责资源监控和作业调度C.TAskTrACker监控所有TAskTrACker与JoB的健康状况D.TAskTrACker使用“slot”等量划分本节点上的资源量CPU、内存等4、下列选项中，哪些属于HADoop1.0的核心组件的不足之处？A.实时性（差适合批处理，不支持实时交互式

20、）B.资源浪费（MAp和ReDuCe分两阶段执行）C.执行迭代操作效率低D.难以看到程序整体逻辑5、HADoop的优化与发展主要体现在哪几个方面？A.HADoop自身核心组件MApReDuCe的架构设计改进B.HADoop自身核心组件HDFS的架构设计改进C.HADoop生态系统其它组件的不断丰富D.HADoop生态系统减少不必要的组件，整合系统6、下列哪些属于HADoop2.0相对于HADoop1.0的改进？A.设计了HDFSHAB.提供名称节点热备机制C.设计了HDFSFeDerAtion，管理多个命名空间D.设计了新的资源管理框架YARN7、下列说法正确的是：A.数据仓库Hive不需要借

21、助于HDFS就可以完成数据的存储B.ImpAlA和Hive、HDFS、HBAse等工具可以统一部署在一个HADoop平台上C.Hive本身不存储和处理数据，依赖HDFS存储数据，依赖MA.pReDuCe处理数据D.HiveQL语法与传统的SQL语法很相似8、ImpAlA主要由哪几个部分组成:A.ImpAlAD.B.StAteStoreC.CLID.Hive9、SpArk具有以下哪几个主要特点？A.运行速度快B.容易使用C.通用性D.运行模式单一10、SCAlA具有以下哪几个主要特点？A.SCAlA的优势是提供了REPL(ReAD-EvAl-PrintLoop，交互式解释器)，提高程序开发效率B

22、.SCAlA兼容JAvA，运行速度快，且能融合到HADoop生态圈中C.SCAlA具备强大的并发性，支持函数式编程D.SCAlA可以更好地支持分布式系统形考任务4一、单选题1、下列关于流计算的说法，哪项是错误的？A.实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息B.流计算秉承一个基本理念，即数据的价值随着时间的流逝而降低C.对于一个流计算系统来说，它应该支持TB级甚至是PB级的数据规模D.流计算只需要保证较低的延迟时间，即只达到秒级别即可处理一切问题2、下列关于数据处理流程，说法有误的是？A.在传统的数据处理流程中，存储的数据是旧的B.在传统的数据处理流程中，需要用户主动

23、发出查询来获取结果C.传统的数据处理流程，需要先采集数据并存储在关系数据库等数据管理系统中D.流计算的处理流程一般包含三个阶段：数据实时采集、数据批量计算、实时查询服务3、下面描述错误的是：A.Storm虽然可以做到低延迟，但是无法实现高吞吐，也不能在故障发生时准确地处理计算状态B.SpArkStreAming通过采用微批处理方法实现了高吞吐和容错性，但是牺牲了低延迟和实时处理能力C.Flink实现了GoogleDAtAflow流计算模型，是一种兼具高吞吐、低延迟和高性能的实时流计算框架，并且同时支持批处理和流处理D.SpArkStreAming可以实现毫秒级响应，而Flink只能实现秒级响应

24、4、以下哪个不属于事件驱动型应用？A.反欺诈B.异常检测C.基于规则的报警D.消费者技术中的实时数据即席分析5、下列关于图结构数据的描述，错误的是？A.许多非图结构的大数据，通常会被转换为关系模型后进行分析B.许多大数据都是以大规模图或网络的形式呈现C.图数据结构很好地表达了数据之间的关联性D.关联性计算是大数据计算的核心6、在Pregel计算模型中，图中的每个顶点会对应一个计算单元，下列哪一项不属于计算单元的成员变量？A.顶点值VertexvAlue：顶点对应的PR值B.出射边OuteDge：只需要表示一条边，可以不取值C.消息MessAge：传递的消息D.入射边IuteDge：只需要表示一

25、条边，可以不取值7、下列关于数据可视化的描述，哪个是错误的？A.数据可视化是指将大型数据集中的数据以图形图像形式表示B.利用数据分析和开发工具发现其中未知信息的处理过程C.数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示D.将数据的各个属性值以一维数据的形式表示8、下列哪个不属于可视化工具？A.GoogleChartAPIB.D3C.VisuallyD.Spark9、下面关于UserCF算法和ItemCF算法的对比，哪个是错误的？A.UserCF算法的推荐更偏向社会化：适合应用于新闻推荐、微博话题推荐等应用场景，其推荐结果在新颖性方面有一定的优势B.ItemCF算法的推荐更偏

26、向于个性化C.ItemCF随着用户数目的增大，用户相似度计算复杂度越来越高D.UserCF推荐结果相关性较弱，难以对推荐结果作出解释，容易受大众影响而推荐热门物品10、下列关于推荐系统的描述，哪一项是错误的？A.推荐系统是大数据在互联网领域的典型应用B.推荐系统是自动联系用户和物品的一种工具C.推荐系统可以创造全新的商业和经济模式，帮助实现长尾商品的销售D.推荐系统分为基于物品的协同过滤和基于商家的协同过滤二、多选题1、流数据具有以下哪些特征？A.数据快速持续到达，潜在大小也许是无穷无尽的A.数据来源众多，格式复杂B.注重数据的整体价值，不过分关注个别数据C.系统可以控制将要处理的新到达的数据

27、元素的顺序2、下列关于批量计算和实时计算的说法，正确的有？A.批量计算：充裕时间处理静态数据，如HADoopB.静态数据不适合采用批量计算，因为它不适合用传统的关系模型建模C.流数据必须采用实时计算D.流数据的响应时间一般为秒级，甚至需要毫秒级3、企业数据架构的典型形式包括：A.传统数据处理架构B.大数据LAmBDA架构C.流处理架构D.循环处理架构4、Flink的优势包括：A.同时支持高吞吐、低延迟、高性能B.同时支持流处理和批处理C.支持有状态计算D.具有独立的内存管理5、很多传统的图计算算法都存在以下哪些典型问题？A.常常表现出比较差的内存访问局部性B.针对单个顶点的处理工作过少C.计算

28、过程中伴随着并行度的改变D.计算过程简易6、针对大型图比如社交网络和网络图的计算问题，哪些说法是正确的？A.为特定的图应用定制相应的分布式实现：通用性不好B.基于现有的分布式计算平台进行图计算：在性能和易用性方面往往无法达到最优C.使用单机的图算法库，但是，在可以解决的问题的规模方面具有很大的局限性D.使用已有的并行图计算系统，但是，对大规模分布式系统非常重要的一些方面比如（容错），无法提供较好的支持7、在大数据时代，可视化技术可以支持实现哪些目标？A.观测、跟踪数据B.分析数据C.辅助理解数据D.增强数据吸引力8、信息图表是信息、数据、知识等的视觉化表达，下列哪个说法正确？A.谷歌公司的制图

29、服务接口GoogleChArtAPI，可以用来为统计数据并自动生成图片B.D3是最流行的可视化库之一，是一个用于网页作图、生成互动图形的JAvASCript函数库C.EChArts是由百度公司前端数据可视化团队研发的图表库，可以流畅地运行在PC和移动设备上D.大数据魔镜是一款优秀的国产数据分析软件，它丰富的数据公式和算法可以让用户真正理解探索分析数据9、下列哪些属于大数据应用？A.推荐系统：为用户推荐相关商品B.物流：基于大数据和物联网技术的智能物流C.智能交通：利用交通大数据，实现交通实时监控D.汽车：无人驾驶汽车，实时采集车辆各种行驶数据和周围环境10、下列关于推荐系统集群的描述，哪些是正确的？A.为了让用户从海量信息中高效地获得自己所需的信息，推荐系统应运而生B.推荐系统是大数据在互联网领域的典型应用C.推荐系统是自动联系用户和物品的一种工具D.推荐系统是利用大数据调整线下门店布局、控制店内人流量

注意事项

本文（国家开放大学《大数据技术》形考任务1-4参考答案.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。