第12章数据仓库与数据挖掘.pptx
- 文档编号:15122899
- 上传时间:2023-07-01
- 格式:PPTX
- 页数:29
- 大小:531.02KB
第12章数据仓库与数据挖掘.pptx
《第12章数据仓库与数据挖掘.pptx》由会员分享,可在线阅读,更多相关《第12章数据仓库与数据挖掘.pptx(29页珍藏版)》请在冰点文库上搜索。
第12章数据仓库与数据挖掘,基本概念,数据仓库定义数据仓库是一个面向决策主题的、集成的、时变的、非易失、以读为主的数据集合。
数据仓库系统的分类Web数据仓库;并行数据仓库;多维数据仓库;压缩数据仓库等。
OLAP定义OLAP是针对某个特定的主题进行联机数据访问、处理和分析,通过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给用户。
面向决策主题的数据仓库围绕一些主题,排除对于决策无用的数据,提供特定主体的简明视图。
集成的构造数据仓库是将多个异种数据源集成在一起,确保命名约定,编码结构,属性度量等一致性。
时变的数据存储从历史的角度提供信息.在数据仓库,隐式或显式地包含时间元素。
非易失的数据仓库总是物理地分离存放数据;由于这种分离,数据仓库不需要事务处理,恢复和并发控制。
通常数据仓库只需要两种数据访问:
数据的初始化装入和数据访问。
以读为主的数据仓库中的数据主要是提供决策进行查询,一般不一定都需要即时更新,可以定期刷新或按需刷新。
数据仓库基本特性,数据仓库项目流程管理及系统性能管理和监控,OLTP,数据源,数据仓库,数据集市,数据采集及整合,数据的映射规则、模型,。
(元数据管理),数据展现及决策,生产,财务,结算,外部,地区,分析,总量,分析,市场,分析,ETL,数据分析、DM,终端用户,终端用户,数据仓库体系结构,数据仓库的结构,早期细节级,当前细节级,轻度综合级数据集市,高度综合级,元数据,操作型转换,数据仓库中的几个重要概念,ETLETL(Extract/Transformation/Load)用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
元数据关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据。
同时元数据还包含关于数据含义的商业信息。
DataMart数据集市-小型的,面向部门或工作组级数据仓库。
OperationDataStore操作数据存储ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。
四个基本特点:
面向主题的(Subject-Oriented)、集成的、可变的、当前或接近当前的。
粒度数据仓库的数据单元中保存数据的细化或综合程度的级别。
细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。
分割结构相同的数据可以被分成多个数据物理单元。
任何给定的数据单元属于且仅属于一个分割。
数据仓库中的几个重要概念(续),操作数据库与数据仓库的区别,操作数据库系统的主要任务是联机事务处理OLTP数据仓库在数据分析和决策方面为用户提供服务,这种系统称为联机分析处理OLAP,基本数据模式,星型模式,日期维表TimeIDDayMonthYear,销售事实表TimeIDProductIDRegionIDSalesQuantity,产品维表ProductIDProductNameClassIDClassNameCategoryIDCategoryName,地区维表RegionDCityProvinceCountry,基本数据模式(续1),雪花模式,销售事实表TimeIDProductIDRegionIDSalesQuantity,日期维表TimeIDdayMonth,产品维表ProductIDProductNameClassIDClassName,地区维表RegionIDCityProvince,月表MonthYear,类别表ClassIDCategoryIDCategoryName,省份表ProvinceCountry,基本数据模式(续2),多维模型Cube(D1,D2,Dn,M1,M2,Mm),数据仓库的主要应用,信息处理支持查询和基本的统计分析,并使用表或图进行报告。
分析处理支持基本的OLAP操作,在汇总的和细节的历史数据上操作。
数据挖掘支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并用可视化工具提供挖掘结果.,OLAP发展背景,60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。
1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。
用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。
因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。
OLTP数据OLAP数据原始数据导出数据细节性数据综合性和提炼性数据当前值数据历史数据可更新不可更新,但周期性刷新一次处理的数据量小一次处理的数据量大面向应用,事务驱动面向分析,分析驱动面向操作人员,支持日常操作面向决策人员,支持管理需要,什么是OLAP?
定义1:
OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。
通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
定义2:
OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
(OLAP委员会的定义)OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。
OLAP相关基本概念,1)维:
是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。
2)维的层次:
人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:
日期、月份、季度、年)。
3)维的成员:
维的一个取值。
是数据项在某维中位置的描述。
(“某年某月某日”是在时间维上位置的描述)4)多维数组:
维和变量的组合表示。
一个多维数组可以表示为:
(维1,维2,维n,变量)。
(时间,地区,产品,销售额)5)数据单元(单元格):
多维数组的取值。
(2000年1月,上海,笔记本电脑,$100000),OLAP特性,
(1)快速性:
用户对OLAP的快速反应能力有很高的要求。
系统应能在5秒内对用户的大部分分析要求做出反应。
(2)可分析性:
OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
(3)多维性:
多维性是OLAP的关键属性。
系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。
(4)信息性:
不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。
OLAP基本操作,上卷操作:
通过维层次,在数据立方体上进行聚集。
下钻操作:
是上卷操作的逆操作,由不太详细的数据到更详细的数据。
切片和切块:
切片在给定的数据立方体的一个维上进行选择,切块则是在两个或两个以上的维进行选择。
旋转操作:
是改变维度的位置关系,使最终用户可以从其他视角来观察多维数据。
OLTP和OLAP的区别,用户和系统的面向性:
OLTP是面向顾客的,用于事务和查询处理;OLAP是面向市场的,用于数据分析。
数据内容:
OLTP系统管理当前数据;OLAP系统管理大量历史数据,提供汇总和聚集机制。
数据库设计:
OLTP采用实体-联系ER模型和面向应用的数据库设计;OLAP采用星型或雪花模型和面向主题的数据库设计。
视图:
OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同组织的数据;OLAP则相反,不仅关注本企业或组织内部的当前数据,而且更多地涉及到历史数据和其他组织的数据。
访问模式:
OLTP系统的访问主要由短的原子事务组成,这种系统需要并行和恢复机制。
OLAP系统的访问大部分是只读操作。
OLTP和OLAP的区别(续),OLAP的分析方法
(一)切片、切块,OLAP的分析方法
(二)钻取,按时间维向下钻取,按时间维向上钻取,60,OLAP的分析方法(三)旋转,OLAP服务器类型,关系OLAP(ROLAP)模型使用关系或扩充关系DBMS存放并管理数据仓库。
多维OLAP(MOLAP)服务器这些服务器通过基于数组的多维存储,支持数组的多维视图。
混合OLAP(HOLAP)服务器结合ROLAP和MOLAP技术,得宜于ROLAP的可伸缩性和MOLAP的快速计算。
数据组织形式,RDB数据组织MDDB数据组织关系表中综合数据的存放多维数据库中综合数据的存放,ROLAP体系结构,MOLAP体系结构,HOLAP体系结构(续),OLAP的Web表现方式,静态方法静态HTML报表动态方法通过HTML模板及元数据动态生成报表改进方法使用Java或ActiveX,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 12 数据仓库 数据 挖掘