数据仓库实例(dw3).pptx
- 文档编号:18672979
- 上传时间:2023-08-28
- 格式:PPTX
- 页数:41
- 大小:133.58KB
数据仓库实例(dw3).pptx
《数据仓库实例(dw3).pptx》由会员分享,可在线阅读,更多相关《数据仓库实例(dw3).pptx(41页珍藏版)》请在冰点文库上搜索。
数据仓库数据仓库(三)数据仓库设计大致有如下几个步骤:
2.6数据仓库的设计明确主题明确主题概念设计技术准备逻辑设计逻辑设计物理设计物理设计数据仓库生成数据仓库生成数据仓库的运行与维护数据仓库的运行与维护针对每一个选定的当前实施的主题针对每一个选定的当前实施的主题概念模型设计逻辑模型设计物理模型设计数据仓库生成数据仓库运行与维护2.62.6数据仓库的设计数据仓库的设计2.62.6数据仓库的设计数据仓库的设计确定系统边界要做的决策类型有哪些?
决策者感兴趣的是什么问题?
这些问题需要什么样的信息?
要得到这些信息需要包含哪些数据源?
v概念模型设计确定系统边界确定主要的主题及其内容OLAP设计2.62.6数据仓库的设计数据仓库的设计确定主要的主题确定主要的主题即明确数据仓库的分析对象,然后对每个主题的内容进行较详细的描述,包括:
确定主题及其属性信息描述每个属性的取值情况固定不变的半固定的经常变化的确定主题的公共码键主题间的关系:
主题间联系及其属性在确定上述内容后,就可以用传统的实体联系模型(E-R模型)来表示数据仓库的概念数据模型。
例如:
2.62.6数据仓库的设计数据仓库的设计主题主题名名公共公共码键码键属性信息属性信息商品商品号固有信息:
商品,商品名,色等号类别颜采信息:
商品,供商,供价,供日期,供购号应号应应应量等售信息:
商品,客,售价,售日期,售量等销号顾号销销存信息:
商品,房,存量,日期等库号库号库供应商供应商号固有信息:
供商,供商名,地址,供商应号应电话应类型等供商品信息:
供商,商品,供价,供日期,应应号号应应供量等应客顾客顾号固有信息:
客,姓名,性,年,文化程度,住址顾号别龄,等电话物信息:
客,商品,售价,日期,量等购顾号号购买购买2.62.6数据仓库的设计数据仓库的设计供应商固有信息供应商供应商品信息日期供应商号顾客固有信息顾客号顾客日期顾客购物信息商品采购信息商品销售信息商品商品号日期商品固有信息商品库存信息商品、顾客和供应商之间的商品、顾客和供应商之间的E-RE-R图图2.62.6数据仓库的设计数据仓库的设计v逻辑模型设计将ER图转换成关系数据库的二维表定义数据源和数据抽取规则在逻辑模型的设计过程中,需要考虑以下一些问题:
适当的粒度划分合理的数据分割策略定义合适的数据来源等2.62.6数据仓库的设计数据仓库的设计v逻辑模型设计粒度划分在设计过程中需要考虑数据仓库中数据粒度的划分原则,即数据单元的详细程度和级别。
数据越详细,粒度越小,级别就越低数据综合度越高,粒度越大,级别就越高。
一般将数据划分为:
详细数据、轻度总结、高度总结三种粒度,或者采用更多级的粒度划分方法。
例如:
根据时间跨度进行的统计有:
天,周,月,季度,年对于不适合进行统计的属性值,可以采样获取数据粒度的划分将直接影响到数据仓库中的数据量以及所适合的查询类型,粒度划分是否适当是影响数据仓库性能的一个重要方面。
2.62.6数据仓库的设计数据仓库的设计商品固有信息:
商品表(商品,商品名,型,色,)号类颜/*据细节数*/商品采信息:
购采表购1(商品,供商,供日期,供价,)号应号应应/*据细节数*/采表购2(商品,段号时间1,采量,)购总/*合据综数*/采表购n(商品,段号时间n,采量,)购总商品售信息:
销售表销1(商品,客,售日期,售价,售量,)号顾号销销/*据细节数*/售表销2(商品,段号时间1,售量,)销总/*合据综数*/售表销n(商品,段号时间n,售量,)销总商品存信息:
库存表库1(商品,房,存量,日期,)号库号库/*据细节数*/存表库2(商品,房,存量,星期,)号库号库/*本据样数*/存表库n(商品,房,存量,年,)号库号库份其出据:
它导数2.62.6数据仓库的设计数据仓库的设计v逻辑模型设计数据分割数据的分割是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的数据单元进行存储(关系),以便于重构、重组和恢复,以提高创建索引和顺序扫描的效率。
选择数据分割的因素有:
数据量的大小数据分析处理的对象(主题)简单易行的数据分割标准数据粒度的划分策略通常采用时间属性作为数据分割的依据数据分割技术类似于数据库中的数据分片技术,其目的是为了提高数据仓库的性能。
2.62.6数据仓库的设计数据仓库的设计v逻辑模型设计定义数据来源及其抽取规则定义数据仓库中数据的来源,以及数据的抽取规则,例如:
主题名主题名属性名属性名数据源系统数据源系统源表名源表名源属性名源属性名商品商品号库存子系统商品商品号商品商品名库存子系统商品商品名商品类别采购子系统商品类别2.62.6数据仓库的设计数据仓库的设计v物理模型设计在逻辑模型设计基础上确定数据的存储结构、确定索引策略、确定存储分配及数据存放位置等与物理有关的内容,物理模型设计的具体方法与数据库设计中的大致相似。
其目的是为了提高数据仓库系统的访问性能。
常用的一些技术有:
合并表建立数据序列引入冗余表的物理分割生成导出数据建立广义索引2.62.6数据仓库的设计数据仓库的设计在常见的一些分析处理操作中,可能需要执行多表连接操作。
为了节省I/O开销,可以把这些表中的记录混合存放在一起,以减低表的连接操作的代价。
这样的技术我们称为合并表。
合并表技术与传统关系数据库中的集簇(Clustering)技术类似。
v物理模型设计合并表2.62.6数据仓库的设计数据仓库的设计按照数据的处理顺序调整数据的物理存放位置,以减少减少系统的磁盘I/O的开销。
v物理模型设计建立数据序列17584623page1page2page3page42.62.6数据仓库的设计数据仓库的设计v物理模型设计建立数据序列12345678page1page2page3page4调整后的存储组织调整后的存储组织2.62.6数据仓库的设计数据仓库的设计在面向某个主题的分析过程中,通常需要访问不同表中的多个属性,而每个属性又可能参与多个不同主题的分析过程。
因此可以通过修改关系模式把某些属性复制到多个不同的主题表中去,从而减少一次分析过程需要访问的表的数量。
采用该种数据组织方法回带来大量的数据冗余存储,数据仓库系统必须保证这些冗余数据的一致性。
由于数据仓库中的数据是稳定的,很少执行更新操作,不会因此带来过高的数据更新的代价,却可以有效地提高数据仓库系统的性能。
v物理模型设计引入冗余2.62.6数据仓库的设计数据仓库的设计类似于在逻辑设计阶段的数据分割。
可以根据表中每个属性数据的访问频率和稳定性程度对表的存储结构进行分割。
对于访问频率较高的属性,可以单独考虑其物理存储组织,以便选择合适的索引策略和特定的物理组织方式。
对于需要频繁更新的属性,也可以单独组织其物理存储,以免因数据更新而带来的空间重组、重构等工作。
v物理模型设计表的物理分割2.62.6数据仓库的设计数据仓库的设计在原始的细节数据的基础上进行一些统计和计算,生成导出数据,并保存在数据仓库中。
采用该方法既可以避免在分析过程中执行过多的统计或计算操作,减少输入/出的次数,又避免了不同用户进行的重复统计操作可能产生的偏差。
v物理模型设计生成导出数据2.62.6数据仓库的设计数据仓库的设计用于记录数据仓库中数据于最有关的统计结果的索引被称为广义索引。
如:
当月销售额最高的商店?
当月销售情况最差的商品?
这样的广义索引的数据量是非常小的,可以在每次进行数据仓库数据加载工作时生成或刷新这样的广义索引。
用户可以从已经建立的广义索引里直接获取这些统计信息,而不必对整个数据仓库进行扫描。
v物理模型设计建立广义索引2.62.6数据仓库的设计数据仓库的设计v数据仓库生成建立数据模式根据逻辑设计与物理设计的设计结果建立数据仓库的数据模式。
编制数据抽取程序根据数据仓库元数据中的定义信息,编制抽取程序,将数据源中的数据作加工以形成数据仓库中的数据。
数据加载将数据源中的数据,通过数据抽取程序加载到数据仓库的模式中去。
2.62.6数据仓库的设计数据仓库的设计在数据仓库建立后,就可以建立分析、决策型的应用系统。
在应用系统的使用过程中不断加深理解,改进主题,依照原型法的思想使系统更趋完善。
在系统的运行过程中,随着数据源中数据的不断变化,需要通过数据刷新操作来维护数据仓库中数据的一致性。
v数据仓库的使用与维护2.7联机分析处理(联机分析处理(OLAP)联机事务处理:
OLTPOnLineTransactionProcessing联机分析处理:
OLAPOnLineAnalyticalProcessing2.7联机分析处理(联机分析处理(OLAP)OLAP中的几个基本概念:
对象(Object)在分析型处理中我们所关心和分析的对象。
例如:
商品的销售金额维(Dimension)观察分析对象的角度。
例如:
可以从三个维角度观察销售金额这个对象:
时间维:
可按时间角度分析、统计其销售金额。
商品维:
可按不同商品分类角度分析、统计。
地域维:
可按连锁点不同地域角度分析、统计其销售金额。
2.7联机分析处理(联机分析处理(OLAP)OLAP中的几个基本概念:
层(Layer)在分析型应用中,对对象可以从不同深度分析与观察并可得到不同结果,因此,“层”反映了对对象观察的深度。
一般而言,层是与维相关联的,一个维中可允许存在若干个层,并且可以又不同的层次划分方法。
例如:
时间维:
可以有日、周、月、季、年地域维:
可以有市、省、国、洲商品维:
商品的分类2.7联机分析处理(联机分析处理(OLAP)OLAP中的几个基本概念:
维成员维的一个取值称为该维的一个维成员。
如果一个维是多层次的,则该维的维成员是在不同维层次的取值的组合。
例如:
对时间维来说,某年某月某日、某年某月、某月某日、某年都是其维成员。
对一个数据项来说,维成员是该数据项在某维中位置的描述。
2.7联机分析处理(联机分析处理(OLAP)OLAP中的几个基本概念:
多维数组一个多维数组可以表示为(维1,维2,维n,变量),这样可以构成三维、四维及多维的数据表示结构。
其中,变量表示我们所观察的数据对象,维1、维2、维n分别表示我们观察该数据对象的角度。
如(时间,商品种类,商店,销售额),从而构成一个有关商品销售额的三维数组。
(2000年,家电,南京市,1亿)(2000年7月,女性服装,江苏省,10亿)2.7联机分析处理(联机分析处理(OLAP)OLAP中的几个基本概念:
数据单元(单元格)多维数组的取值称为数据单元。
当多维数组的各个维都选中一个维成员,这些维成员的组合就唯一确定了一个观察对象的值,即(维成员1,维成员2,维成员n,对象值)。
2.7联机分析处理(联机分析处理(OLAP)假设:
在一个分析型应用中有若干个分析对象(设为r个),以它们为聚焦点作不同角度(设为m个)与深度(设为n个)的分析,那么可以得到多种不同的统计分析结果(共为(r*m*n)个)。
为了方便快速地查到这些统计分析结果,OLAP需要解决以下三个问题:
OLAP的基本数据模型OLAP数据构造方式数据立方体(DataCube)与数据超立方体(DataSuperCube)2.7联机分析处理(联机分析处理(OLAP)OLAP的基本数据模型星型模式(StarSchema)星形模式是一种多维表结构,它一般有两种不同性质的二维表组成:
事实表(facttable):
它存放多维表中的主要事实称为量(Measure)维表(DimensionTable):
用以建立多维表中之维成员值一般一个n维的多维表往往有n个维表和一个事实表,它们构成了一个星形结构,称为星形模式。
在星形模式中主体是事实表,而有关维的细节则构作于维表内以达到简化事实表的目的,事实表与维表间有公共属性相连以使它们构成一个整体。
2.7联机分析处理(联机分析处理(OLAP)产品标识符产品标识符商店标识符商店标识符日期标识符日期标识符销售金额销售金额产品标识符产品标识符类别大类别日期标识符日期标识符日月季年商店标识符商店标识符市名省名国名洲名销售表销售表产品表产品表商店表商店表日期表日期表星型模式示意图星型模式示意图2.7联机分析处理(联机分析处理(OLAP)上述的星型模式可以转化成下面的四个关系:
事表:
实售表(品符,商店符,日期符,售)销产标识标识标识销额表维1:
品表(品符,大)产产标识类别类别表维2:
商店表(商店符,市名,省名,名,洲名)标识国表维3:
表(符,日期,月,季度,年)时间时间标识份份2.7联机分析处理(联机分析处理(OLAP)OLAP的基本数据模型雪花模式(SnowflakeSchema)如果每个维表也是一个类似星型的模式结构,则称其为雪花模式。
例如:
上述的产品表也可以是一个星型结构。
产品(类别,供应商,顾客)在上述的星型模式中,我们只考虑产品的分类,在这里我们还可以从产品的供应商或购买顾客角度来来考虑对产品进行分析。
也可以以其中的供应商为中心再构成一个星型模式。
2.7联机分析处理(联机分析处理(OLAP)OLAP数据构造方式ROLAP:
(RelationalOLAP)用传统的关系数据库管理系统(RDBMS)管理,将星型(雪花型)模式用二维表形式存储,表间用关键字相连,从而构成一个关系模式,它称为ROLAP。
用户在ROLAP上的查询操作将被改写成RDBMS中的查询操作并执行获得查询结果。
MOLAP:
(Multi-DemensionalOLAP)用多维数据库管理系统管理,多维数据库的基本数据模式是一个多维数组。
在MOLAP中,事实表被表示成一个多维数组,维的属性值被映射成多维数组下标,而总结数据则作为多维数据值存储在数据单元中。
在查询时,可以通过下标值取出相应数组中的总结数据。
2.7联机分析处理(联机分析处理(OLAP)OLAP数据构造方式OLAP服务器必须提高对OLAP数据的访问效率,包括:
数据抽取、转换及加载的效率OLAP数据查询效率OLAP数据更新效率2.7联机分析处理(联机分析处理(OLAP)目前可有多种方法以提高OLAP中的处理效率,它们是:
尽量采用并行操作方式以提高处理速度。
采用物化视图方式。
将视图这种虚表形式转换成实际存在的二维表,以达到快速取得总结性数据的目的。
采用特殊的索引与集簇方式,以加速星型模式内表的连接速度。
采用OLAP中的查询优化技术,如共享排序技术等。
采用增量技术,在OLAP数据更新时保留不变的数据,仅更改变动的数据以加快数据更新速度。
2.7联机分析处理(联机分析处理(OLAP)数据立方体(DataCube)数据仓库的数据模式通常可以看成是定义在多个数据源上的数据视图。
分析数据的基本内容是一些统计数据,获取这些统计数据的常用方法是在视图中用统计函数进行计算,但这种方法的缺点是显见的:
时间开销太大。
为了提高对统计信息的查询速度,我们可以预先计算好数据视图中的统计信息并保存在数据仓库中,这称为物化视图,即将虚的视图转变成实际的视图。
存放物化视图的三维数据模型叫数据立方体。
2.7联机分析处理(联机分析处理(OLAP)以上面的星型模式为例,其事实表共有三维,即产品P(product)、商店S(store)及日期D(Date),可以为它们定义一系列的物化视图。
(1)PSD视图CREATEVIEWPSD(产品标识符,商店标识符,日期标识符,销售总额)AS(SELECT产品标识符,商店标识符,日期标识符,SUM(销售金额)FROM销售表GROUPBY产品标识符、商店标识符、日期标识符)
(2)PS、SD、PD视图CREATEVIEWPS(产品标识符、商品标识符、销售总额)AS(SELECT产品标识符,商品标识符,SUM(销售金额)FROMPSDGROUPBY产品标识符,商店标识符)采用类似的方法也可以定义出SD、PD视图。
2.7联机分析处理(联机分析处理(OLAP)(3)P、S、D视图CREATEVIEWP(产品标识符、销售总额)AS(SELECT产品标识符,SUM(销售金额)FROMPSGROUPBY产品标识符)采用类似的方法也可以定义出S、D视图。
(4)ALL视图ALL视图表示不分组,该视图中的销售总额表示销售表中所有销售金额之和。
其定义如下:
CREATEVIEWALL(销售总额)AS(SELECTSUM(销售总额)FROMPSD)2.7联机分析处理(联机分析处理(OLAP)日期一季度二季度三季度四季度ALL品VCDTV产PCALLNO1NO2NO3ALL商店数据立方体数据立方体2.7联机分析处理(联机分析处理(OLAP)数据超立方体(DataSuperCube)在数据立方体中进行的是一个三维的分析应用。
但当应用中分析对象超过三维时,则构成一个多维(或称n维,n4)应用,此时无法用数据立方体表示其中的数据,而只能通过虚拟的n(n4)维空间建立n维立方体,它称为数据超立方体。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 实例 dw3