Lecture3数据仓库与OLAP技术概述.pptx
- 文档编号:15122875
- 上传时间:2023-07-01
- 格式:PPTX
- 页数:37
- 大小:199.85KB
Lecture3数据仓库与OLAP技术概述.pptx
《Lecture3数据仓库与OLAP技术概述.pptx》由会员分享,可在线阅读,更多相关《Lecture3数据仓库与OLAP技术概述.pptx(37页珍藏版)》请在冰点文库上搜索。
2023年7月1日星期六,DataMining:
ConceptsandTechniques,1,数据挖掘:
概念与技术第三、四章,王家兵博士华南理工大学计算机科学与工程学院E-mail:
2023年7月1日星期六,DataMining:
ConceptsandTechniques,2,Lecture3:
数据仓库、OLAP及数据立方体计算,什么是数据仓库(datawarehouse)?
多维数据模型数据仓库体系结构数据仓库实施,2023年7月1日星期六,DataMining:
ConceptsandTechniques,3,什么是数据仓库?
有多种但并不严格的定义与操作数据库相隔离并单独维护的一个用来支持决策过程的数据库一个用来对整理过的历史数据进行分析以便支持信息处理的固定平台.“数据仓库是面向主题的、集成的、时变的、非易失的数据集合,它用来支持管理部门的决策过程”W.H.Inmon,2023年7月1日星期六,DataMining:
ConceptsandTechniques,4,数据仓库面向主题的,围绕主题组织,如消费者(customer)、产品(product),销售量(sales)等。
主要目的是对数据建模与分析,以便于决策者的决策过程,而不是日常操作与事物处理。
排出那些对决策过程没有用的数据,为决策者提供一个简明的有关特定主题的视图。
2023年7月1日星期六,DataMining:
ConceptsandTechniques,5,数据仓库集成的,集成多个、异构数据源关系数据库,普通文件,联机事物记录。
应用了数据清洗与数据集成技术确保多个数据源命名惯例、编码结构、属性度量等的一致性。
在数据移入数据仓库之前,对它进行转换。
2023年7月1日星期六,DataMining:
ConceptsandTechniques,6,数据仓库时变的,数据仓库跨越的时间比操作数据库要长的多.操作数据库:
当前值数据。
数据仓库:
从历史的视角提供信息(如过去5-10的数据)数据仓库的健值属性隐式或显式地包含一个时间键。
操作数据库可以也可以不包含时间键。
2023年7月1日星期六,DataMining:
ConceptsandTechniques,7,数据仓库非易失的,与操作数据库分隔存储。
操作数据库的数据更新不在数据仓库环境出现。
不需要事务处理,数据恢复以及并发控制机制。
仅仅需要以下2种操作:
数据的初始装载与数据访问。
2023年7月1日星期六,DataMining:
ConceptsandTechniques,8,数据仓库vs.数据库管理系统,联机事物处理(OLTP,on-linetransactionprocessing)传统关系数据库的主要任务日常操作:
购买,存货,财务等.联机分析处理(OLAP,on-lineanalyticalprocessing)数据仓库的主要任务数据分析与决策支持,2023年7月1日星期六,DataMining:
ConceptsandTechniques,9,2023年7月1日星期六,DataMining:
ConceptsandTechniques,10,为什么要建立隔离的数据仓库?
使得操作数据库与数据仓库都获得高性能DBMSOLTP:
访问方法,索引,并发控制,数据恢复。
WarehouseOLAP:
复杂OLAP查询,多维视图,整理。
对数据与功能的要求不同:
丢失的数据:
决策支持需要历史数据,而传统数据库并不一定维护历史数据。
数据整理:
决策支持需要对异构数据源进行数据整理。
数据质量:
不同的数据源常常具有不一致的数据表示,编码结构与格式。
2023年7月1日星期六,DataMining:
ConceptsandTechniques,11,数据挖掘中的数据仓库与OLAP技术,什么是数据仓库?
多维数据模型数据仓库体系结构数据仓库实施,2023年7月1日星期六,DataMining:
ConceptsandTechniques,12,由表和电子数据表到数据立方体I,数据仓库基于多维数据模型,以数据立方体的形式对数据进行观察。
数据立方体,如销售,允许以多维来对数据进行建模与观察。
维表:
如维item(item_name,brand,type),或维time(day,week,month,quarter,year)。
事实表包含度量(measures):
如销售额以及每个相关维表的关键字。
2023年7月1日星期六,DataMining:
ConceptsandTechniques,13,由表和电子数据表到数据立方体II,在数据仓库的研究文献中,一个n维立方体(n-D)称为基本方体(basecuboid);0-D方体存放最高层的汇总,称为顶点方体(apexcuboid),方体的格称作数据立方体(datacube)。
2023年7月1日星期六,DataMining:
ConceptsandTechniques,14,立方体:
方体格,0-D(apex)cuboid,1-Dcuboids,2-Dcuboids,3-Dcuboids,4-D(base)cuboid,2023年7月1日星期六,DataMining:
ConceptsandTechniques,15,数据仓库概念模型,建模数据仓库:
维&度量星型模式(Starschema):
一个事实表以及一组与事实表连结的维表。
雪花模式(Snowflakeschema):
雪花模式是星型模式的变种,其中某些维表是规范化的。
(normalized),因而把数据进一步分解到附加的表中。
事实星座(Factconstellations):
多个事实表分享共同的维表,这种模式可以看作星型模式的集合,因此称为星系模式(galaxyschema)或事实星座。
2023年7月1日星期六,DataMining:
ConceptsandTechniques,16,星型模式,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,2023年7月1日星期六,DataMining:
ConceptsandTechniques,17,雪花模式,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,2023年7月1日星期六,DataMining:
ConceptsandTechniques,18,事实星座,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,ShippingFactTable,time_key,item_key,shipper_key,from_location,to_location,dollars_cost,units_shipped,2023年7月1日星期六,DataMining:
ConceptsandTechniques,19,度量的分类I,分布式的(distributive):
一个聚集函数是分布的,如果它能以以下分布式进行计算:
如果将函数用于n个聚集值得到的结果,与将函数用于所有数据得到的结果一样,则该函数可以用分布式计算。
如,count(),sum(),min(),max().代数的(algebraic):
一个函数是代数的,如果它能够由一个具有M个参数的代数函数计算(其中M是一个有界整数),而每个参数都可以用一个分布聚集函数得到。
如,avg(),standard_deviation().,2023年7月1日星期六,DataMining:
ConceptsandTechniques,20,度量的分类II,整体的(holistic):
如果描述它的子聚集所需的存储没有一个常数界,即不存在一个具有M个参数的代数函数进行这一计算(其中M是常数)。
如,median()(中位数),mode()(出现次数最多的数,众数)等。
2023年7月1日星期六,DataMining:
ConceptsandTechniques,21,一个概念层次:
维(location),2023年7月1日星期六,DataMining:
ConceptsandTechniques,22,多维数据,销售立方体,Product,Region,Month,维:
Product,Location,Time概念层次图:
IndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay,2023年7月1日星期六,DataMining:
ConceptsandTechniques,23,示例:
数据立方体,TV在美国的年销售额,2023年7月1日星期六,DataMining:
ConceptsandTechniques,24,对应立方的立方体,2023年7月1日星期六,DataMining:
ConceptsandTechniques,25,典型的OLAP操作I,上卷Rollup(上钻drill-up):
通过一个维的概念分层向上攀升或通过维规约,在数据立方体上进行聚集。
下钻Drilldown(rolldown):
上卷的逆操作,它由不太详细的数据得到更详细的数据。
可以通过沿维的概念分层向下或引入新的维实现。
2023年7月1日星期六,DataMining:
ConceptsandTechniques,26,典型的OLAP操作II,切片Slice与切块dice投影与选择。
转轴Pivot(rotate)是一种目视操作,它转动数据的视角,提供数据的替代表示其它操作钻过drillacross:
执行涉及多个事实表的查询。
钻透drillthrough:
使用SQL的机制,钻到数据立方的底层,到后端关系表。
2023年7月1日星期六,DataMining:
ConceptsandTechniques,27,数据挖掘中的数据仓库与OLAP技术,什么是数据仓库?
多维数据模型数据仓库体系结构数据仓库实施,2023年7月1日星期六,DataMining:
ConceptsandTechniques,28,多层体系结构,DataWarehouse,OLAPEngine,AnalysisQueryReportsDatamining,Monitor&Integrator,Metadata,DataSources,Front-EndTools,Serve,DataMarts,DataStorage,OLAPServer,2023年7月1日星期六,DataMining:
ConceptsandTechniques,29,三个数据仓库模型,企业仓库(Enterprisewarehouse)搜集了关于主题的所有信息,跨越整个组织。
数据集市(DataMart)包含企业范围数据的一个子集,对于特定的用户是有用的,其范围限于选定的主题。
虚拟仓库(Virtualwarehouse)操作数据库上视图的一组集合。
为了有效处理查询,只有一些可能的汇总视图被物化。
2023年7月1日星期六,DataMining:
ConceptsandTechniques,30,数据挖掘中的数据仓库与OLAP技术,什么是数据仓库?
多维数据模型数据仓库体系结构数据仓库实施,2023年7月1日星期六,DataMining:
ConceptsandTechniques,31,数据立方的有效计算,数据立方可以看作是由立方体形成的格结构最底层的立方体称为基本方体(basecuboid)最上层的方体称为顶点方体(apexcuboid)一个L层的n维立方有多少立方体呢?
2023年7月1日星期六,DataMining:
ConceptsandTechniques,32,数据立方的物化,物化每一个立方体,不物化,或者部分物化物化每一个立方体?
不物化?
部分物化!
选择将要物化的立方体基于尺寸大小,共享,访问频率等。
2023年7月1日星期六,DataMining:
ConceptsandTechniques,33,立方计算的多路数组聚集方法I,把数组划分成块(chunks,一个子方,其大小能够放入立方体计算时可用的内存).采用压缩的稀疏数组结构:
(chunk_id,offset)通过访问立体单元,计算聚集。
可以优化访问单元的次序使得每个单元必须重复访问的次数最小化。
2023年7月1日星期六,DataMining:
ConceptsandTechniques,34,立方计算的多路数组聚集方法II,最优遍历的顺序是?
2023年7月1日星期六,DataMining:
ConceptsandTechniques,35,立方计算的多维数组聚集,B,2023年7月1日星期六,DataMining:
ConceptsandTechniques,36,立方计算的多维数组聚集,A,B,29,30,31,32,1,2,3,4,5,9,13,14,15,16,64,63,62,61,48,47,46,45,a1,a0,c3,c2,c1,c0,b3,b2,b1,b0,a2,a3,C,44,28,56,40,24,52,36,20,60,B,2023年7月1日星期六,DataMining:
ConceptsandTechniques,37,总结,数据仓库数据仓库的多维模型星型模式,雪花模式,事实星座数据立方由维和度量组成OLAP操作:
drilling,rolling,slicing,dicingandpivoting数据立方的有效计算部分、全部、不物化多路数组聚集(Multiwayarrayaggregation),
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Lecture3 数据仓库 OLAP 技术 概述