12《数据仓库与数据挖掘》复习题.docx
- 文档编号:10330856
- 上传时间:2023-05-25
- 格式:DOCX
- 页数:25
- 大小:314.49KB
12《数据仓库与数据挖掘》复习题.docx
《12《数据仓库与数据挖掘》复习题.docx》由会员分享,可在线阅读,更多相关《12《数据仓库与数据挖掘》复习题.docx(25页珍藏版)》请在冰点文库上搜索。
12《数据仓库与数据挖掘》复习题
《数据仓库与数据挖掘》复习大纲考试时间与地点:
课程名称任课
老师
班级人数
考试合班
数
考试
周数
周几第几节考试地点
数据仓库与数据挖掘吴静12信技
1-2
5421153-4L1208
考试题型:
一、单项选择题(10×2分=20分
二、判断题(10×2分=20分
三、简答题(5×6分=30分
四、分析计算题(3×10分=30分
考试范围:
第一讲数据挖掘概述
考点:
1、数据挖掘、知识发现(KDD基本概念;
2、数据挖掘的过程;
3、数据挖掘过技术的三个主要部分。
复习参考题:
一、填空题
(1数据库中的知识挖掘(KDD包括以下七个步骤:
数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。
(2数据挖掘的性能问题主要包括:
算法的效率、可扩展性和并行处理。
(3当前的数据挖掘研究中,最主要的三个研究方向是:
统计学、数据库技术和机器学习。
(4在万维网(WWW上应用的数据挖掘技术常被称为:
WEB挖掘。
(5孤立点是指:
一些与数据的一般行为或模型不一致的孤立数据。
二、单选题
(1数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:
B
A、所涉及的算法的复杂性;
B、所涉及的数据量;
C、计算结果的表现形式;
D、是否使用了人工智能技术
(2孤立点挖掘适用于下列哪种场合?
D
A、目标市场分析
B、购物篮分析
C、模式识别
D、信用卡欺诈检测
(3下列几种数据挖掘功能中,(D被广泛的应用于股票价格走势分析。
A.关联分析
B.分类和预测
C.聚类分析
D.演变分析
(4下面的数据挖掘的任务中,(B将决定所使用的数据挖掘功能。
A、选择任务相关的数据
B、选择要挖掘的知识类型
C、模式的兴趣度度量
D、模式的可视化表示
(5下列几种数据挖掘功能中,(A被广泛的用于购物篮分析。
A、关联分析
B、分类和预测
C、聚类分析
D、演变分析
(6根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是(B。
A.关联分析
B.分类和预测
C.演变分析
D.概念描述
(7帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是(C。
A.关联分析
B.分类和预测
C.聚类分析
D.孤立点分析
E.演变分析
(8假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是(E
A.关联分析
B.分类和预测
C.孤立点分析
D.演变分析
E.概念描述
三、简答题
1、何谓数据挖掘?
它有哪些方面的功能?
答:
从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。
相关的名称有知识发现、数据分析、数据融合、决策支持等。
数据挖掘的功能包括:
概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。
2、一个典型的数据挖掘系统应该包括哪些组成部分?
答:
一个典型的数据挖掘系统应该包括以下部分:
(1数据库、数据仓库或其他信息库;
(2数据库或数据仓库服务器;
(3知识库;
(4数据挖掘引擎;
(5模式评估模块;
(6图形用户界面。
3、请列举数据挖掘应用常见的数据源。
(或者说,我们都在什么样的数据上进行数据挖掘答:
常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。
其中高级数据库系统和信息库包括:
空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy数据库、文本数据库和万维网(WWW等。
4、在哪些情况下,我们认为所挖掘出来的模式是有趣的?
答:
一个模式是有趣的,如果(1它易于被人理解;(2在某种程度上,对于新的或测试数据是有效的;(3具有潜在效用;(4新颖的;(5符合用户确信的某种假设。
5、根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?
答:
根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。
第二讲数据的认识及预处理
考点:
1、什么是数据预处理,为什么要对数据进行预处理?
2、数据预处理的方法有哪些?
3、在数据预处理过程中度量中心趋势里中位数、众数等如何求取的?
4、度量数据离散度时如何求取极差、五数概括(基于四分位数、中间四分位数极差和标准差?
5、在消除数据的噪声时,采用的分箱技术中如何对数据进行等频(等深划分,如何进行等宽划分?
6、什么是数据变换?
如何使用“最小-最大规范化规范化”方法、“z-score规范化”方法以及“小数定标规范化”这三种方法将数据按比例缩放,使之落入一个小的特定区间里。
复习参考题:
一、填空题
(1进行数据预处理时所使用的主要方法包括:
数据清理、数据集成、数据变换和数据规约。
(2处理噪声数据的方法主要包括:
分箱、聚类、计算机和人工检查结合、回归。
(3模式集成的主要问题包括:
整合不同数据源中的元数据,实体识别问题。
(4数据概化是指:
沿概念分层向上概化。
(5数据压缩可分为:
有损压缩和无损压缩两种类型。
(6进行数值归约时,三种常用的有参方法是:
线性回归方法,多元回归和对数线性模型。
(7数据离散度的最常用度量是五数概括、中间四分位数区间和标准差。
二、单选题
(1数据归约的目的是(C。
A、填补数据种的空缺值
B、集成多个数据源的数据
C、得到数据集的压缩表示
D、规范化数据
(2下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?
A.数据清理
B.数据集成
C.数据变换
D.数据归约
(3进行数据规范化的目的是(A。
A.去掉数据中的噪声
B.对数据进行汇总和聚集
C.使用概念分层,用高层次概念替换低层次“原始”数据
D.将属性按比例缩放,使之落入一个小的特定区间
(4数据的噪声是指(D。
A、孤立点
B、空缺值
C、测量变量中的随即错误或偏差
D、数据变换引起的错误
(5那种数据变换的方法将数据沿概念分层向上汇总C。
A、平滑
B、聚集
C、数据概化
D、规范化
(6(C通过将属性域划分为区间,从而减少给定连续值的个数。
A.概念分层
B.离散化
C.分箱
D.直方图
三、分析计算题
1、假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果:
(a计算年龄和脂肪百分比的均值、中位数和标准差
(b绘制年龄和脂肪百分比的盒图
(c根据Z-score规范化来规范化这两个属性
答:
2、假定用于分析的数据包含属性age.数据元组age值(以递增序是:
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
(a使用min-max规范化将age值35变换到[0.0,1.0]区间。
(b使用z-score规范化变换age值35,其中age的标准差为12.94岁。
(c使用小数定标规范化变换age值35。
(d对于给定的数据,你愿意使用哪种方法?
陈述你的理由。
答:
3、假设12个销售价格记录组已经排序如下:
5,10,11,13,15,35,50,55,72,92,204,215。
使用如下每种方法将其划分成三个箱。
(a等频(等深划分。
(b等宽划分。
(c聚类。
答:
第三讲数据仓库、数据立方体以及OLAP技术
考点:
1、什么是数据仓库,它的特点以及功能?
2、在数据仓库中提供的是联机分析处理(OLAP工具,它与OLTP有什么区别?
3、传统的数据库系统与数据仓库的区别?
4、什么是粒度?
它对数据仓库有什么影响?
按粒度组织数据的方式有哪些?
5、什么是数据立方体?
什么是维?
6、OLAP的基本操作有哪些?
复习参考题:
一、填空题
(1数据仓库的多维数据模型可以有三种不同的形式,分别是:
星形模式、雪花模式
和事实星座模式。
(2给定基本方体,方体的物化有三种选择:
不物化、部分物化和全物化。
(3著名的数据仓库系统设计师W.H.Inmon认为,数据仓库与其他数据存储系统的区别的四个特征是:
面向主题、数据集成、随时间而变化和数据不易丢失。
(4在数据访问模式上,数据仓库以事务操作为主,而日常应用数据库则以只读查询为主。
(5数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:
分布的、代数的和整体的。
(6关于数据仓库的设计,四种不同的视图必须考虑,分别是:
自顶向下视图、数据源视图、数据仓库视图、商务查询视图。
(7OLAP服务器的类型主要包括:
关系OLAP服务器(ROLAP、多维OLAP服务器(MOLAP和混合OLAP服务器(HOLAP。
(8求和函数sum(是一个分布的的函数。
(9方体计算的主要挑战是海量数据和有限的内存和时间之间的矛盾。
二、单选题
(1下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作(B。
A、上卷(roll-up
B、选择(select
C、切片(slice
D、转轴(pivot
(2以下哪个范围是数据仓库的数据库规模的一个合理范围(D。
A、1~100M
B、100M~10G
C、10~1000G
D、100GB~数TB
(3存放最低层汇总的方体称为:
C
A、顶点方体
B、方体的格
C、基本方体
D、维
(4哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?
A
A、上卷
B、下钻
C、切块
D、转轴
(5平均值函数avg(属于哪种类型的度量?
B
A、分布的
B、代数的
C、整体的
D、混合的
三、多选题
(1OLAP系统和OLTP系统的主要区别包括(ABD。
A、OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据;
B、在数据的存取上,OLTP系统比OLAP系统有着更多的写操作;
C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多;
D、OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据。
(2从结构的角度看,数据仓库模型包括以下几类:
ABC
A、企业仓库
B、数据集市
C、虚拟仓库
D、信息仓库
(3数据仓库的三层架构主要包括以下哪三部分?
BCD
A、数据源
B、数据仓库服务器
C、OLAP服务器
D、前端工具
(4以下哪些是数据仓库的主要应用?
ACD
A、信息处理
B、互联网搜索
C、分析处理
D、数据挖掘
四、分析与计算题
1、何谓数据仓库?
为什么要建立数据仓库?
答:
数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性、随时间不断变化(不同时间的数据集合,为企业决策支持系统提供所需的集成信息。
建立数据仓库的目的有3个:
一、是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。
二、是解决决策分析对数据的特殊需求问题。
决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。
三、是解决决策分析对数据的特殊操作要求。
决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。
2、何谓粒度?
它对数据仓库有什么影响?
按粒度组织数据的方式有哪些?
答:
粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。
按粒度组织数据的方式主要有:
①简单堆积结构②轮转综合结构③简单直接结构④连续结构
3、假定BigUniversity的数据仓库包含如下4个维:
student(student_name,area_id,major,status,university
course(course_name,department
semester(semester,year
instructor(dept,rank
2个度量:
count和avg_grade。
在最低概念层,度量avg_grade存放学生的实际课程成绩。
在较高概念层,avg_grade存放给定组合的平均成绩。
(a为数据仓库画出雪花模式图。
(b由基本方体[student,course,semester,instructor]开始,为列出Big_University每个学
生的CS课程的平均成绩,应当使用哪些OLAP操作(如,由学期上卷到学年。
(c如果每维有5层(包括all,如student 方包含多少方体(包含基本方体和顶点方体 答: (a (b这些特殊的联机分析处理(OLAP操作有: 沿课程(course维从course_id“上卷”到department。 沿学生(student维从student_id“上卷”到university。 取department=“CS”和university=“BigUniversity”,沿课程(course维和学生(student维切块。 沿学生(student维从university下钻到student_name。 (c这个立方体将包含54=625个方体。 4、思考: 假定数据仓库包含4个维: date(day,month,quarter,year spectator(spectator_name,status,phone,address location(location_name,phone#,street,city,province,country game(game_name,description,description,producer 2个度量: count和charge。 其中,charge是观众在给定的日期观看节目的付费。 观众可以是学生、成年人或老人,每类观众有不同的收费标准。 (a画出该数据仓库的星形模式图。 (b由基本方体[date,spectator,location,game]开始,为列出2004年学生观众在GM-Place的总代价,应当执行哪些OLAP操作? 第四讲关联规则挖掘 考点: 1、什么是关联规则? 如何发现关联规则? 2、什么的支持度、可信度? 3、经典的关联规则算法Appriori中是如何找到事务中的项集、K-项集、频繁项集并最后确定关联规则的? 4、FP-Tree算法 复习参考题: 一、填空题 (1关联规则挖掘中,两个主要的兴趣度度量是: 支持度和置信度。 (2Aprior算法包括连接和剪枝两个基本步骤。 (3项集的频率是指包含项集的事务数。 (4大型数据库中的关联规则挖掘包含两个过程: 找出所有频繁项集、由频繁项集产生强关联规则。 (5根据规则中所处理的值类型,关联规则可分为: 布尔关联规则、量化关联规则。 (6Apriori性质是指: 频繁项集的所有非空子集也必须是频繁的。 (7挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法: 量化属性的静态离散化、量化关联规则、基于距离的关联规则。 (8对于频繁项集挖掘,在挖掘过程中使用的约束包括以下五种类型: 反单调的、单调的、简洁的、可转变的、不可转变的。 (9在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集。 二、单选题 (1下列几种数据挖掘功能中,(A被广泛的用于购物篮分析。 A、关联分析 B、分类和预测 C、聚类分析 D、演变分析 (2支持度(support是衡量兴趣度度量(A的指标。 A、实用性 B、确定性C.、简洁性D、新颖性 (3置信度(confidence是衡量兴趣度度量(B的指标。 A、简洁性 B、确定性C.、实用性D、新颖性 (4根据关联分析中所处理的值类型,可以将关联规则分类为: (C A、布尔关联规则和量化关联规则 B、单维关联规则和多维关联规则 C、单层关联规则和多层关联规则 D、简答关联规则和复杂关联规则 (5规则: age(X,”19-25”∧buys(X,“popcorn”=>buys(X,“coke”是一个C A、单维关联规则 B、多维关联规则 C、混合维关联规则 D、不是一个关联规则 三、问答及分析计算 1、请解释一下在数据挖掘关联规则中什么是支持度和可信度,以及关联规则。 答: 支持度: 规则A→B的支持度指的是所有事件中A与B同地发生的的概率,即P(A∪B,是AB同时发生的次数与事件总次数之比。 支持度是对关联规则重要性的衡量。 可信度: 规则A→B的可信度指的是包含A项集的同时也包含B项集的条件概率P(B|A,是AB同时发生的次数与A发生的所有次数之比。 可信度是对关联规则的准确度的衡量。 关联规则: 同时满足最小支持度阈值和最小可信度阈值的规则称之为关联规则。 2、数据库有4笔交易,设minsup=60%,minconf=80%。 用Apriori算法找出所有频繁项集,列出所有关联规则。 (参考课本以及课堂教学例子 第五讲分类 考点 1、什么是分类? 解决分类问题的一般方法? 2、在常用的分类方法中决策树技术发现规则的核心是? 什么是决策树? 如何用决策树进行分类? 3、在决策树算法中有CLS,ID3,C4.5,CART等方法,简述ID3算法的基本思想及其主算法的基本步骤。 4、什么是属性的信息增益,熵? 5、分类模型的误差有哪些? 6、什么是过度拟合? 解决的办法? 复习参考题: 一、填空题 (1通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性。 (2防止分类中的过分适应的两种方法分别是: 先剪枝、后剪枝。 二、单选题 (1下面哪种分类方法是属于神经网络学习算法? (C A、判定树归纳 B、贝叶斯分类 C、后向传播分类 D、基于案例的推理 (2下面哪种分类方法是属于统计学的分类方法? (B A、判定树归纳 B、贝叶斯分类 C、后向传播分类 D、基于案例的推理 (3下列哪个描述是正确的? (C A、分类和聚类都是有指导的学习C、分类是有指导的学习,聚类是无指导的学习 B、分类和聚类都是无指导的学习D、分类是无指导的学习,聚类是有指导的学习 三、问答题 1、分类知识的发现方法主要有哪些? 分类过程通常包括哪两个步骤? 答: 分类规则的挖掘方法通常有: 决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。 分类的过程包括2步: 首先在已知训练数据集上,根据属性特征,为每一种类别找到一个合理的描述或模型,即分类规则;然后根据规则对新数据进行分类。 2、什么是决策树? 如何用决策树进行分类? 答: 决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。 它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。 决策树的根结点是所有样本中信息量最大的属性。 树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。 决策树的叶结点是样本的类别值。 决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。 决策树方法是数据挖掘中非常有效的分类方法。 3、在判定树归纳中,为什么树剪枝是有用的? 答: 当判定树创建时,由于数据中的噪声和孤立点,许多分枝反应的是训练数据中的异常。 剪枝方法处理这种过分适应数据的问题。 通常,这种方法使用统计度量,剪去最不可靠的分枝,这将导致较快的分类,提高树独立于测试数据正确分类的可靠性。 四、分析题 1、根据以下训练样本,计算年龄属性的信息增益值 I(16,4=-((4/16*log2(4/16+(12/16*log2(12/16=0.8113 E(年龄=(6/16*I(6,1+(10/16*I(10,3=0.7946 Gain(年龄=I(16,4-E(年龄=0.0167 第六讲聚类分析 考点: 1、什么的聚类? 它和分类的区别在哪? 2、聚类的主要算法中K-平均算法(k-means的输入、输出及聚类过程是如何实现的? 复习参考题: 一、填空题 (1在数据挖掘中,常用的聚类算法包括: 划分方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。 (2聚类分析常作为一个独立的工具来获得数据分布的情况。 (3一个好的聚类分析方法会产生高质量的聚类,具有两个特征: 高类内相似度、低类间 相似度。 (4许多基于内存的聚类算法所常用的两种数据结构是数据矩阵、相异度矩阵。 (5基于网格的聚类方法的优点是: 处理数度快。 (6孤立点产生的主要原因包括: 度量或执行错误、数据变异的结果。 (7在基于统计的孤立点检测中,常用于不一致性检验的参数包括: 数据分布、分布参数、预期的孤立点数。 二、单选题 (1下面那种数据挖掘方法可以用来检测孤立点? C。 A.概念描述 B.分类和预测 C.聚类分析 D.演变分析 (2以下哪个指标不是表示对象间的相似度和相异度C。 A、Euclidean距离 B、Manhattan距离 C、Eula距离 D、Minkowski距离 (3以下哪种聚类方法可以发现任意形状的聚类? C A、划分的方法 B、基于模型的方法 C、基于密度的方法 D、层次的方法 三、问答题 1、何谓聚类? 它与分类有什么异同? 答: 聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。 聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行;聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类则属于有指导的学习,是示例式学习。 2、简述ID3算法的基本思想及其主算法的基本步骤。 答: 首先找出最有判别力的因素,然后把数据分成多个子集,每个子集又选择最有判别力的因素进一步划分,一直进行到所有子集仅包含同一类型的数据为止。 最后得到一棵决策树,可以用它来对新的样例进行分类。 主算法包括如下几步: ①从训练集中随机选择一个既含正例又含反例的子集(称为窗口; ②用“建树算法”对当前窗口形成一棵决策树; ③对训练集(窗口除外中例子用所得决策树进行类别判定,找出错判的例子; ④若存在错判的例子,把它们插入窗口,重复步骤②,否则结束。 四、分析计算 1、给定两个向量对象,分别表示为p1(22,1,42,10,p2(20,0,36,8: (a计算两个对象之间的欧几里得距离; (b计算两个对象之间的曼哈顿距离; (c计算两个对象之间的切比雪夫距离; (d计算两个对象之间的闵可夫斯基距离,用x=3。 答: (a计算两个对象之间的欧几里得距离: (b计算两个对象之间的曼哈顿距离: (d计算两个对象之间的闵可夫斯基距离,其中参数r=3: 2、假设数据挖掘的任务是将如下的八个点(用(x,y代表位置)聚类为三个类。 A1(2,10,A2(2,5,A3(8,4,B1(5,8,B2(7,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库与数据挖掘 12 数据仓库 数据 挖掘 复习题