数据仓库与数据挖掘实验指导新版.docx
- 文档编号:17452341
- 上传时间:2023-07-25
- 格式:DOCX
- 页数:28
- 大小:33.49KB
数据仓库与数据挖掘实验指导新版.docx
《数据仓库与数据挖掘实验指导新版.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘实验指导新版.docx(28页珍藏版)》请在冰点文库上搜索。
数据仓库与数据挖掘实验指导新版
数据仓库与数据挖掘实验指导书
一、课程简介及基本要求
《数据仓库与数据挖掘》是专业教学计划中一门专业选修课,是综合性和实践性都很强的课程,它是研究数据仓库技术与数据挖掘技术的一门重要课程。
它着重介绍数据仓库原理、联机分析处理、数据仓库设计与开发、数据仓库的决策支持应用、数据挖掘原理等基本知识。
通过学习本课程使学生初步掌握数据仓库技术与数据挖掘技术的基础理论与专业技术,具备从数据资源提取信息与知识并进行辅助决策的基本能力。
课程主要内容有:
数据仓库原理、联机分析处理、数据仓库设计与开发、数据仓库的决策支持应用、数据挖掘原理、信息论的决策树方法、集合论的粗糙集方法、关联规则、公式发现、神经网络、遗传算法、文本挖掘与Web挖掘,以及数据仓库与数据挖掘的发展。
。
学生学习本课程之后,应达到下列要求:
1.了解数据管理技术从数据库到数据仓库的发展过程。
2.掌握数据仓库的定义、特点和研究数据仓库的必要性。
3.掌握数据仓库的体系结构和联机分析处理的概念
4.掌握数据仓库的数据组织、数据预处理与规划管理
5.掌握数据仓库规划、设计、管理的基本方法
6.掌握数据挖掘的基本概念及与数据仓库的关系
7.熟悉聚类分析、分类发现和关联规则等数据挖掘算法的使用环境、算法特点,并能进行算法复杂性的分析。
8.认识数据挖掘的发展趋势和应用前景
9.能够在实践中应用数据仓库技术和应用数据挖掘的方法。
二、课程实验目的要求
《数据仓库与数据挖掘》课程上机练习,是理论教学之后的深化和补充,具有较强的实践性,是本课程的重要环节。
通过实验教学环节,对学生进行实践技能和科学研究方法的训练,巩固其在课堂上所学书本知识,加深对商务智能的基本概念,基本原理和分析方法的理解,掌握商务智能的核心基础技术与工具,并能运用典型的商务智能工具处理,解决一些实际问题。
同时,通过实践教学活动,拓宽学生的知识领域,锻炼学生的实践技能,培养科学严谨、求真务实的工作作风。
通过实验教学应达到以下基本要求:
1.理解数据仓库的工作机理及其构建过程。
2.掌握典型的数据仓库系统及其开发工具的使用。
3.理解OLAP的工作原理与流程,掌握典型OLAP工具的操作与使用方法。
4.理解数据挖掘的工作原理与流程,掌握典型数据挖掘技术及其工具的使用方法。
三、适用专业信息管理与信息系统专业
四、主要仪器设备
计算机局域网,在服务器与客户端安装MSSQLServer系统及其AnalysisServices系统。
五、考核与报告
1.学生按上机阶段要求上交上机报告。
指导教师根据学生在上机过程中的出勤情况、设计表现、上机报告内容等方面进行综合评定。
2.综合上机过程中的出勤和独立工作能力及表现情况占30%,实际完成情况占35%,综合设计报告占35%,指导教师给出综合上机成绩。
3.上机成绩按比例计入《数据仓库与数据挖掘》课程学期总成绩。
实验一、数据仓库的基本操作
1实验目的:
(1)建立系统数据源连接,并应用AnalysisServer工具建立数据仓库和数据源
(2)察看、编辑数据仓库的基本模型
2实验步骤:
1.1建立系统数据源连接
数据源包含访问一个对象源数据所需的信息。
如何设置系统数据源名称(DSN)
1.Microsoft®WindowsNT®4.0用户:
单击“开始”按钮,指向“设置”,单击“控制面板”,然后双击“数据源(ODBC)”。
Windows®2000用户:
单击“开始”按钮,指向“设置”,单击“控制面板”,然后双击“管理工具”,再双击“数据源(ODBC)”。
2.在“系统DSN”选项卡上单击“添加”按钮。
3.选择“MicrosoftAccess驱动程序(*.mdb)”,然后单击“完成”按钮。
4.在“数据源名”框中,输入“教程”,然后在“数据库”下,单击“选择”。
5.在“选择数据库”对话框中,浏览到“C:
\ProgramFiles\MicrosoftAnalysisServices\Samples”,然后单击“FoodMart2000.mdb”。
单击“确定”按钮。
6.在“ODBCMicrosoftAccess安装”对话框中单击“确定”按钮。
7.在“ODBC数据源管理器”对话框中单击“确定”按钮。
1.2启动AnalysisManager
AnalysisManager是一个在Microsoft®管理控制台(MMC)上运行的管理单元程序。
如何启动AnalysisManager
∙单击“开始”按钮,依次指向“程序”、“MicrosoftSQLServer”和“AnalysisServices”,然后单击“AnalysisManager”。
1.3建立数据库和数据源
现在即可以开始使用AnalysisManager!
如何建立数据库结构
1.在AnalysisManager树视图中展开“AnalysisServers”。
2.单击服务器名称,即可建立与AnalysisServers的连接。
3.右击服务器名称,然后单击“新建数据库”命令。
4.在“数据库”对话框中的“数据库名称”框中,输入“教程”,然后单击“确定”按钮。
5.在AnalysisManager树窗格中展开服务器,然后展开刚才创建的“教程”数据库。
新的“教程”数据库包含下列项目:
∙数据源
∙多维数据集
∙共享维度
∙挖掘模型
∙数据库角色
然后,建立到“教程”数据源中的示例数据的连接。
教程中的全部练习都将使用这个示例。
在AnalysisManager中建立一个数据源,将数据库连接到在ODBC数据源管理器中建立的系统数据源名称(DSN)上。
在建立多维数据集的过程中,所有的数据都将来自这个源。
如何建立数据源
1.在AnalysisManager树窗格中,右击“教程”数据库下的“数据源”文件夹,然后单击“新数据源”命令。
2.在“数据链接属性”对话框中,单击“提供者”选项卡,然后单击“MicrosoftOLEDBProviderforODBCDrivers”。
3.单击“连接”选项卡,然后从“使用数据源名称”列表中单击“教程”。
4.单击“测试连接”以确保一切工作正常。
在“Microsoft数据链接”对话框中应出现一条消息,说明连接成功。
在消息框中单击“确定”按钮。
5.单击“确定”按钮关闭“数据链接属性”对话框。
1.4建立多维数据集
多维数据集是数据的一种多维结构。
多维数据集由维度和度量值的集合进行定义。
如何打开多维数据集向导
∙在AnalysisManager树窗格中,“教程”数据库下,右击“多维数据集”文件夹,单击“新建多维数据集”菜单,然后单击“向导”命令。
如何向多维数据集添加度量值
度量值是要进行分析的数据库中的量化值。
常用的度量值为销售、成本和预算数据。
度量值根据多维数据集不同的维度类别进行分析。
1.在多维数据集向导的“欢迎”步骤,单击“下一步”按钮。
2.在“从数据源中选择事实数据表”步骤,展开“教程”数据源,然后单击“sales_fact_1998”。
3.单击“浏览数据”按钮可以查看“sales_fact_1998”表中的数据。
数据浏览完毕后,关闭“浏览数据”窗口,然后单击“下一步”按钮。
4.若要定义多维数据集的度量值,在“事实数据表数据列”下,双击“store_sales”。
对“store_cost”和“unit_sales”列重复此步骤,然后单击“下一步”按钮。
如何建立时间维度
1.在向导的“选择多维数据集的维度”步骤,单击“新建维度”命令。
此操作将调用维度向导。
2.在“欢迎”步骤,单击“下一步”按钮。
3.在“选择维度的创建方式”步骤,选择“星型架构:
单个维度表”选项,然后单击“下一步”按钮。
4.在“选择维度表”步骤,单击“time_by_day”。
单击“浏览数据”按钮可以查看包含在“time_by_day”表中的数据。
查看完“time_by_day”表后,单击“下一步”按钮。
5.在“选择维度类型”步骤,选择“时间维度”选项,然后单击“下一步”按钮。
6.接下来,将定义维度的级别。
在“创建时间维度级别”步骤,单击“选择时间级别”,单击“年、季度、月”,然后单击“下一步”按钮。
7.在“选择高级选项”步骤,单击“下一步”按钮。
8.在向导的最后一步,输入“Time”作为新维度的名称。
注意:
使用“与其它多维数据集共享此维度”复选框,可以指定此维度是共享的,还是专用的。
该复选框位于屏幕的左下角。
保持该复选框的选中状态。
7.单击“完成”返回到多维数据集向导。
8.在多维数据集向导中,现在应能在“多维数据集维度”列表中看到“Time”维度。
如何建立产品维度
1.再次单击“新建维度”命令。
在“欢迎进入维度向导”步骤,单击“下一步”按钮。
2.在“选择创建维度的方式”步骤,选择“雪花架构:
多个相关维度表”选项,然后单击“下一步”按钮。
3.在“选择维度表”步骤,双击“Product”和“product_class”将它们添加到“选定的表”。
单击“下一步”按钮。
4.在维度向导的“创建和编辑联接”步骤,显示在上一步选定的两个表以及它们之间的联接。
单击“下一步”按钮。
5.若要定义维度的级别,在“可用的列”下,按顺序双击“product_category”、“product_subcategory”和“brand_name”。
双击每列后,其名称显示在“维度级别”下。
在选择了所有三列后,单击“下一步”按钮。
6.在“指定成员键列”步骤,单击“下一步”按钮。
7.在“选择高级选项”步骤,单击“下一步”按钮。
8.在向导的最后一步,在“维度名称”框中,输入“Product”,并保持“与其它多维数据集共享此维度”复选框为选中状态。
单击“完成”按钮。
9.现在应能在“多维数据集维度”列表中看到“Product”维度。
如何建立客户维度
1.单击“新建维度”命令。
2.在“欢迎”步骤,单击“下一步”按钮。
3.在“选择创建维度的方式”步骤,选择“星型架构:
单个维度表”选项,然后单击“下一步”按钮。
4.在“选择维度表”步骤,单击“Customer”,然后单击“下一步”按钮。
5.在“选择维度类型”步骤,单击“下一步”按钮。
6.若要定义维度的级别,在“可用列”下,按顺序双击“Country”、“State_Province”、“City”和“lname”列。
双击每一列后,其名称将显示在“维度级别”下方。
选择完所有四个列之后,单击“下一步”按钮。
7.在“指定成员键列”步骤,单击“下一步”按钮。
8.在“选择高级选项”步骤,单击“下一步”按钮。
9.在向导的最后一步,在“维度名称”框中,输入“Customer”。
保持“与其它多维数据集共享此维度”复选框的选中状态。
单击“完成”按钮。
10.在多维数据集向导中,现在应能在“多维数据集维度”列表中看到“Customer”维度。
如何生成商店维度
1.单击“新建维度”命令。
2.在“欢迎”步骤,单击“下一步”按钮。
3.在“选择创建维度的方式”步骤,选择“星型架构:
单个维度表”选项,然后单击“下一步”按钮。
4.在“选择维度表”步骤,单击“Store”,然后单击“下一步”按钮。
5.在“选择维度表”步骤,单击“Store”,然后单击“下一步”按钮。
6.若要定义维度的级别,在“可用列”下,按顺序双击“store_country”、“store_state”、“store_city”和“store_name”列。
双击每一列之后,其名称将显示在“维度级别”框下。
选择了所有四个列之后,单击“下一步”按钮。
7.在“指定成员键列”步骤,单击“下一步”按钮。
8.在“选择高级选项”步骤,单击“下一步”按钮。
9.在向导的最后一步,在“维度名称”框中,输入“Store”,并保持“与其它多维数据集共享此维度”复选框的选中状态。
单击“完成”按钮。
10.在多维数据集向导中,现在应能在“多维数据集维度”列表中看到“Store”维度。
如何完成多维数据集的生成
1.在多维数据集向导中,单击“下一步”按钮。
2.在“事实数据表行数”消息给出提示时,单击“是”按钮。
3.在多维数据集向导的最后一步,将多维数据集命名为“Sales”,然后单击“完成”按钮。
4.向导将关闭并随之启动多维数据集编辑器,其中包含刚刚创建的多维数据集。
单击蓝色或黄色的标题栏,对表进行排列。
注意:
无须关闭多维数据集编辑器;在本教程的下一节将编辑该多维数据集。
如果需要现在退出教程,请在关闭多维数据集之前先保存更改,并在出现其它提示时,一律选择“否”。
1.5编辑多维数据集
使用多维数据集编辑器可以对现有多维数据集进行更改。
如何在多维数据集编辑器内编辑多维数据集
可以使用以下两种方法启用多维数据集编辑器:
∙在AnalysisManager树窗格中右击一个现有的多维数据集,然后单击“编辑”命令。
-或者-
∙使用多维数据集编辑器直接创建新的多维数据集。
除非您是高级用户,否则不建议使用本方法。
如果您是从上一节的操作接着下来的,则应该已经在多维数据集编辑器中。
在多维数据集编辑器的“架构”窗格中,可以看到事实数据表(黄色标题栏)及联接的维度表(蓝色标题栏)。
在多维数据集编辑器树窗格中,可以在层次树中预览多维数据集的结构。
通过单击左窗格中底部的“属性”按钮,可以编辑多维数据集的属性。
如何向现有多维数据集添加维度
此时,您可能需要一个新维度以提供有关产品促销的数据。
在多维数据集编辑器内可以方便地生成该维度。
注意:
默认情况下,在多维数据集编辑器中生成的维度为专用维度,即只能用于当前所处理的多维数据集,而不能与其它多维数据集共享。
它们不显示在AnalysisManager树视图中的“共享维度”文件夹中。
当通过维度向导创建此类维度时,可以使其在多维数据集之间共享。
1.在多维数据集编辑器中,在“插入”菜单上单击“表”命令。
2.在“选择表”对话框中,单击“promotion”表,单击“添加”按钮,然后单击“关闭”按钮。
3.若要定义新的维度,请双击“promotion”表中的“promotion_name”列。
4.在“映射列”对话框中选择“维度”选项,然后单击“确定”按钮。
5.在树视图中选择“PromotionName”维度。
6.在“编辑”菜单中单击“重命名”命令。
7.键入“Promotion”,按ENTER键。
8.保存所做的更改。
9.关闭多维数据集编辑器。
当系统提示您是否设计存储时,单击“否”。
您将在下节中设计存储。
1.6设计存储和处理多维数据集
可以设计多维数据集中的数据和聚合的存储选项。
在使用或浏览多维数据集中的数据之前,必须先进行处理。
如何使用存储设计向导设计存储
1.在AnalysisManager树窗格中,在“教程”数据库下展开“多维数据集”文件夹,右击“Sales”多维数据集,然后单击“编辑”命令。
2.在“欢迎”步骤中单击“下一步”按钮。
3.选择“MOLAP”作为数据存储类型,然后单击“下一步”按钮。
4.在“设置聚合选项”下单击“性能提升达到”。
在此框中输入“40”作为指定百分比。
此操作指示AnalysisServices将性能提升到40%,而不管需要多大的磁盘空间。
管理员可以用此优化能力平衡查询性能需求和存储聚合数据所需磁盘空间大小。
5.单击“启动”按钮。
6.在AnalysisServices设计聚合时,您可以查看向导右边的“性能与大小”图。
从中可以看出增加性能提升对使用额外磁盘空间的需求。
完成设计聚合的进程之后,单击“下一步”按钮。
7.在“您希望做什么?
”下选择“立即处理”,然后单击“完成”按钮。
注意:
处理聚合可能会花费一些时间。
8.在处理时可以在出现的窗口中查看多维数据集。
处理完成之后将出现一则信息,确认处理已成功完成。
9.单击“关闭”按钮返回AnalysisManager树窗格。
1.7浏览多维数据集数据
可以开始浏览Sales多维数据集中的数据了!
如何使用多维数据集浏览器查看多维数据集数据
1.在AnalysisManager树窗格中,右击“Sales”多维数据集,然后单击“浏览数据”命令。
2.出现多维数据集浏览器,显示由多维数据集的一个维度和度量值组成的网格。
其它四个维度显示在浏览器的上方。
如何替换网格中的维度
1.要用另一个维度替换网格中的维度,拖动上方框中的维度,然后直接将该维度放在要与其交换的列上。
确保在此过程中,指针的形状为双端箭头。
2.使用这种拖放方法,选择“Product”维度按钮并将其拖动到网格上,然后直接放在“Measures”上方。
“Product”维度和“Measures”维度在多维数据集浏览器中将交换位置。
注意:
如果想将维度添加到网格,而不是用另一个维度进行替换,则将该维度拖动到网格的中间。
如何按时间筛选数据
1.单击“Time”维度旁边的箭头。
2.展开“所有Time”和“1998”节点,然后单击“Quarter1”。
将对网格中的数据进行筛选,使筛选出的数据为仅反映该季度情况的数字。
如何深化
1.使用拖放方法交换“Product”和“Customer”维度。
单击“Product”并将其拖到“Country”维度上。
2.双击网格中包含“BakingGoods”的单元。
多维数据集展开以包括子类别列。
注意:
双击已经展开的单元可以关闭子类别列。
用上述方法使维度在网格上来回移动。
这有助于了解如何使用AnalysisManager将有关复杂数据关系的信息信手拈来。
3.完成后,单击“关闭”按钮关闭多维数据集浏览器。
实验二、多维数据的组织与分析
1实验目的:
⑴运用AnalysisServer工具进行维度,度量值以及多维数据集的创建
⑵使用维度浏览器进行多维数据的查询、编辑操作
2实验步骤:
2.1建立具有父子维度的多维数据集
父子维度是由成员的父子关系定义的成员组织好的层次结构。
通常其各个分支并不具有对称数量的级别。
对称层次结构:
不对称层次结构:
如何打开AnalysisManager维度向导
1.在AnalysisManager树窗格中,在“教程”数据库下,右击“共享维度”文件夹,单击“新建维度”菜单,然后单击“向导”命令。
如何建立Employee维度
1.在“欢迎”步骤,单击“下一步”按钮。
2.在“选择维度的创建方式”步骤,选择“父子:
单个维度表中相关的两列”,然后单击“下一步”按钮。
3.在“选择维度表”步骤,单击“employee”,然后单击“下一步”按钮。
4.若要定义子键列,在“成员键”框旁边,选择“employee_id”。
若要定义父键列,在“父键”框旁边,选择“supervisor_id”。
若要定义“成员名称”列,在“成员名称”框旁边,选择“full_name”。
单击“下一步”按钮。
5.在向导的“选择高级选项”步骤,单击“下一步”按钮。
6.在最后一步,在“维度名称”框中,输入“employee”。
单击“完成”按钮。
7.现在进入维度编辑器。
在“文件”菜单上,单击“退出”命令关闭维度编辑器。
8.现在,在“共享维度”列表中,应能看到雇员维度。
如何建立HR多维数据集
1.在AnalysisManager树窗格中,在“教程”数据库下,右击“多维数据集”文件夹,单击“新建多维数据集”菜单,然后单击“向导”命令。
2.按照向导中的步骤创建人力资源多维数据集,使其具有如下特征:
1.事实数据表:
salary(工资)
2.度量值:
salary_paid、vacation_used
3.维度:
Employee(雇员)、Store(商店)、Time(时间)
4.是否计算事实数据表的行数?
是
注意:
在该向导中,将接收到一条消息,说明无法找到两个联接。
单击“确定”按钮。
(将在多维数据集编辑器中手动创建这两个联接)。
3.在该向导的最后一步,将多维数据集命名为“HR”,然后单击“完成”按钮。
4.出现多维数据集编辑器。
若要手动创建联接,将“time_by_day”表的“the_date”字段拖动到“salary”表的“pay_date”字段上。
5.在“store”表的“store_id”字段上单击,并将其拖动到“employee”表中的“store_id”字段上。
6.删除在“salary”表和“employee”表之间自动创建的“department_id”联接:
单击该联接将其选中,然后按“删除”按钮。
7.完成时,关闭多维数据集编辑器。
提示保存多维数据集时单击“是”按钮,但提示设计存储时单击“否”按钮。
(将在本教程的高级分析部分处理该多维数据集。
)
2.2浏览维度数据
Microsoft®SQLServer™2000AnalysisServices提供了维度浏览器,可用来查看和编辑维度结构。
如何浏览维度数据
1.在AnalysisManager树窗格中,在“教程”数据库下,展开“共享维度”文件夹。
2.右击“Employee”维度,然后单击“浏览维度数据”命令。
3.出现维度浏览器,在左窗格的树结构中显示维度成员。
在右窗格中显示成员属性和公式。
4.数据浏览完毕后,单击“关闭”退出维度浏览器。
2.3创建计算成员
可以将多维数据集数据、算术运算符、数字和/或函数组合起来创建自定义度量值或维度成员,这些度量值和维度成员称为计算成员。
如何创建计算成员
1.在AnalysisManager树窗格中,在“教程”数据库下,右击“Sales”多维数据集,然后单击“编辑”命令。
2.即进入多维数据集编辑器开始编辑Sales多维数据集。
多维数据集组件(“维度”、“度量值”、“计算成员”等)列在多维数据集编辑器的左窗格中。
3.右击“计算成员”,然后单击“新建计算成员”。
4.现在进入计算成员生成器中。
前三个框用于确定计算成员的维度的特征:
“父维度”(其所属维度)、“父成员”(其所附加到的父代)和“成员名称”。
5.将“父维度”设置保持为“Measures”不变。
此时“父成员”框不可用,因为度量值维度不支持层次结构。
在“成员名称”框中输入“Averageprice”。
6.计算成员生成器的下半部分提供生成计算成员表达式所需的全部组件。
在“数据”下展开“Measures”维度,然后展开“MeasuresLevel”。
出现度量值列表。
7.从中选择“StoreSales”,然后将其拖入“值表达式”框中。
8.在数字和运算符键区,单击“/”运算符。
在“值表达式”框中表达式的末尾出现运算符。
9.在“数据”下选择“Unitsales”度量值,然后拖至“值表达式”框中表达式的末
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 实验 指导 新版