欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    数据仓库与数据挖掘课后习题答案.docx

    • 资源ID:13937644       资源大小:18.60KB        全文页数:8页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据仓库与数据挖掘课后习题答案.docx

    1、数据仓库与数据挖掘课后习题答案数据仓库与数据挖掘第1章 课后习题一:填空题1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。5)数据处理通常分为两大类:联机事务处理和联机事务分析6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。7)如果从整体上看数据挖掘技术,可以将其

    2、分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web使用挖掘。10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。二:简答题1)什么是数据仓库?数据仓库的特点主要有哪些? 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决 策作用2)简述数据挖掘的

    3、技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。3)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据4)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。5)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的

    4、数据集市体系结构 d.分布式数据仓库结构第2章 课后习题一:填空题1)模型是对现实世界进行抽象的工具。在信息管理中需要将现实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。2)数据仓库模型设计包括概念、逻辑、物理、元数据模型设计等内容。3)现实世界是存在于现实之中的各种客观事物。概念世界是现实情况在人们头脑中的反应。逻辑世界是人们为将存在于自己头脑中的概念模型转换到计算机中的实际的物理存储过程中的一个计算机逻辑表示模式。计算机世界则是指现实世界中的事物在计算机系统中的实际存储模式。4)数据仓库设计的概念模型与业务数据处理系统的三级数据

    5、模型仍然具有一定的差距。表现在数据类型的差异、数据的历史变迁性、数据概况性5)数据仓库项目需求的收集与分析需求要从历史数据与用户需求两个方面同时着手,采用数据驱动+用户驱动的理念。6)所谓主题,是指在较高程度上将业务数据进行综合,归类和分析利用的一个抽象概念,每个主题基本对立业务的一个分析领域。7)多维数据模型较为普遍地采用星型模型、雪花模型两种模式。8)设计聚集模型时,首先需要考虑用户的使用要求,其次要考虑数据仓库的粒度模型和数据的统计分析情况。9)分割是数据仓库逻辑设计中要解决的另一个重要问题,它的目的在于提高效率能为数据仓库的物理实施提供设计依据。10)元数据根据使用情况,主要有技术元数

    6、据和业务元数据两类元数据。二:简答题1)简述概念模型设计主要完成哪些工作? 界定系统边界、确定主要的主题域、细化分析具体内容2)简述一个符合第三范式的关系必须具有的三个条件。 A.每个属性的值唯一,不具有多义性 B.每个非主属性必须完全依赖于整个主键 C.每个非主属性不能依赖于其他关系中的属性。3)简述确定粒度级别的步骤 A.估算DASD B.计算存储空间、确定是否划分粒度。 C.计划影响数据仓库的粒度划分 D.使用多重粒度 E.使用多种存储介质的空间量 F.选择合适的粒度 G.只采用概况数据4)简述CWM五个功能层 对象模型层、基础层、资源层、分析层、管理层5)数据仓库物理模型进行优化时可以

    7、考虑的解决方案有哪些? A.合并表与簇文件 B.建立数据序列 C.引入冗余,反规范处理 D.表的物理分割分区 E.生成派出数据第3章 课后习题一:填空题1)ETL过程主要包括三个部分:数据抽取、数据清洗与数据转换以及数据的加载。2)ETL工作流模型包括ETL概念模型和ETL逻辑模型两部分。3)触发器方式是普遍采取的一种增量抽取机制。该方式是根据抽取要求,在要被抽取的源表上建立插入、修改和删除3个触发器。4)一般情况下,在一个ETL流程中,抽取操作总是最先执行,加载操作最后执行。5)数据质量问题既有可能来自于数据源,又有可能来自于ETL的实施过程。6)基本的多线程并行处理技术分为3种:任务并行处

    8、理、数据并行处理和管道并行处理。7)ETL过程中数据质量问题分为四类:单数据源模式层问题、单数据源实例层问题、多数据源模式层问题、多数据源实例层。8)ETL过程可以被划分为两种类型:全量ETL过程和增量ETL过程。9)加载数据到目标数据仓库的两个基本方式是刷新方式和更新方式。10)控制“脏数据”对数据仓库分析结果的影响程度,采取各种有效的措施对其进行处理,这一处理过程称为数据清洗。二:简答题1)如何保障ETL过程中的数据质量? A.数据源端实施数据质量控制:多数据源的异构问题、数据丢失值得问题、相似重复记录的问题 b.ETL过程中实施数据质量控制:数据抽取程序严格审核、及时监控数据源系统的变更

    9、、确定采信数据源、建立故障检测机制、建立数据审核机制2)增量数据抽取中常用的捕获变化数据的方法有哪几种? 触发器方式、时间戳方式、全表删除插入方式、全表比对方式、日志表方式、系统日志分析方式、系统日志分析方式。3)如何处理空缺数据? 可以采用忽略元组、用一个全局常量填充空缺值、用属性性平均值填充空缺值、使用与给定元组同类的所有样本的平均值填充空缺值、使用最可能的值填充空缺值、使用像Baysian公式或判定树这样的基于推断的方法。4)如何处理噪声数据? 分箱或聚类等方法处理5)简述数据加载操作。 数据加载负责将经过前几步清洗和转换后的数据按照目标数据定义的表结构装入数据仓库6)在ETL过程中会出

    10、现哪几类数据质量问题?分析其产生原因。 单数据源模式层次问题-缺少完整性约束,糟糕的模式设计 单数据源实例层次问题-数据记录的错误 多数据源模式层次问题-异质的数据模型和模式设计 多数据源实例层次问题-冗余、互相矛盾或者不一致的数据第4章 课后习题一:填空题1)OLAP系统按照其存储的数据存储格式可以分为关系OLAP、多维OLAP和混合OLAP三种类型。2)对于拥有海量数据的数据仓库,B-Tree索引技术显得并不灵活,于是人们探寻新的索引技术,如位图索引和标识符来解决此问题。3)用户决策分析角度或决策分析出发点就是数据仓库中的维度。4)度量是多维数据集的核心值,是进行OLAP操作的用户所要观察

    11、分析的数据。5)上卷和下钻的深度与维所划分的层次相对应,上卷分析的细化程度越低,粒度度越大。下钻分析的细化程度越高,粒度越小。6)所谓的数据“上卷”是指用户在数据仓库的应用中,从较低层次开始逐步将数据按照不同的层次进行概况处理。7)根据属性列的不同我们可以建立不同类型的索引列。对于基数高的可以考虑用标识索引,对于基数值较低的则采用与、或等位运算速度比较快的位图索引。8)报表与图形是OLAP系统向用户展现分析结果的两种主要方法。9)OLAP系统在具体实现是,如果将多维数据存储于客户端,就可能呢产生“胖”客户端系统。10)OLAP采用多用户的三层C/S结构,它由数据库、OLAP服务器、OLAP客户

    12、机及客户端应用程序构成。二:简答题1)简述OLAP的简明定义FASMI。 快速性、分析性、共享性、多维性、信息性2)简述数据仓库与数据分析的关系。 数据仓库提供数据源;数据分析提供分析方法;数据分析并非完全依赖于数据仓库第6章 课后习题一:填空题1)常见的数据预处理方法有数据清洗、数据集成、数据变换和数据归约。2)数据清理处理列程通常包括填补遗漏的数据值、平滑有噪声数据、识别或除去异常值,以及解决不一致问题。3)常用的分箱方法有平均值平滑或边界值平滑分箱。4)光滑是去掉数据中的噪声。光滑技术主要包括分箱、回归和聚类等。5)直观地,落在簇集之外的值视为离群点。二:简答题1)简述噪声的概念。 噪声是被测量的变量的随机误差或方差。2)简述数据预处理的必要性。 不完整性、含噪声、杂乱性3)常用的填充丢失的值有哪些方法? 忽略元组、人工填写、使用一个全局常量填充缺失值4)常用的数据光滑技术有哪些? 分箱、回归、聚类5)简述分箱技术的概念。 分箱方法通过考察数据的“近邻”来光滑有序数据的值THANKS !致力为企业和个人提供合同协议,策划案计划书,学习课件等等打造全网一站式需求欢迎您的下载,资料仅供参考


    注意事项

    本文(数据仓库与数据挖掘课后习题答案.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开