数据仓库实施指南.pptx
- 文档编号:15122967
- 上传时间:2023-07-01
- 格式:PPTX
- 页数:57
- 大小:8.13MB
数据仓库实施指南.pptx
《数据仓库实施指南.pptx》由会员分享,可在线阅读,更多相关《数据仓库实施指南.pptx(57页珍藏版)》请在冰点文库上搜索。
梅花与剑,数据仓库相关概念,数据仓库体系结构,数据仓库实施方法,目录,一、数据仓库相关概念,什么是数据仓库,一种面向分析的环境;一种把相关的各种数据转换成有商业价值的信息的技术。
数据仓库理论的创始人W.H.Inmon在其BuildingtheDataWarehouse一书中,给出了数据仓库的四个基本特征:
面向主题,数据是集成的,数据是不可更新的,数据是随时间不断变化的。
一、数据仓库相关概念,区分业务型与分析型数据库,一、数据仓库相关概念,业务型数据库的特点,用于减少冗余和提高精度适合于数据的写入和更新而不是数据的读取,一、数据仓库相关概念,业务型数据库的问题,一、数据仓库相关概念,分析型数据库的特点,一、数据仓库相关概念,星型结构的好处,一、数据仓库相关概念,维度,一、数据仓库相关概念,度量,度量也叫事实,是用于评价业务状况的数值型数据例如:
销售额、成本、利润、库存量、交易数在企业活动中通常是通过如销售额、费用、库存量和定额一类的关键性能指标度量来监测业务的成效。
不同的度量反映出不同的业务性质。
度量之间相互独立。
度量是业务量化的表示。
一、数据仓库相关概念,多维立方体,露营装备2005年在欧洲的销量,一、数据仓库相关概念,多维分析,一、数据仓库相关概念,维度、层和类别,数据仓库相关概念,数据仓库体系结构,数据仓库实施方法,目录,一、数据仓库相关概念,Inmon的企业信息化工厂,企业数据仓库,ETL,组织数据用于部门级分析多维模型,原子数据的集成仓库第三范式,操作型应用程序,用户,数据集市,DSS应用程序,挖掘&探索,一、数据仓库相关概念,Kimball的维度数据仓库,维度数据仓库,ETL,数据集市:
数据仓库中的主题区域,原子数据的集成仓库维度模型,操作型应用程序,用户,一、数据仓库相关概念,独立型数据集市,ETL,相互独立的数据仓库,操作型应用程序,DSS系统,分析系统,ETL,ETL,专卖分析,数据仓库,二、数据仓库体系结构,数据中心用户是谁?
要解决什么问题?
用户:
领导决策支持业务人员报表、业务操作信息中心服务领导和业务人员解决问题:
数据分散:
难管理、难应用数据标准不统一:
可信度低办法:
集中:
数入一库集成:
数出一门应用:
报表、数据挖掘、数据共享,二、数据仓库体系结构,数据中心五大体系,信息资源标准体系数据交换服务体系数据加工存储体系数据分析应用体系信息安全保障体系,二、数据仓库体系结构,信息资源标准体系-“建、管、用”,数据标准:
主数据标准、元数据标准、数据元标准、指标体系、指数体系、数据模型标准等技术标准:
数据交换标准等管理标准:
数据中心管理办法、数据中心管理流程运维标准:
数据安全管理规范,数据发布、共享及服务规范等标准如何落地?
二、数据仓库体系结构,数据交换服务体系,ETL数据复制WEB服务MQ中间表共享文件方式共享,二、数据仓库体系结构,数据加工存储体系,数据建模ODS:
缓冲数据区(全量)规范数据区(增量)整合数据区(明细维度模型-按主题,近期数据)DW:
整合数据区(明细维度模型-按主题,全量数据)汇总数据区(按需汇总,全量)DM:
多维模型-面向业务部门,二、数据仓库体系结构,信息安全保障体系,内容:
数据安全保障:
传输、加工存储、分析应用数据质量保障实施安全保障:
身份鉴别、访问控制、安全审计、容错、备份恢复等注意事项:
安全意识权限控制责任清晰运维工作实时性应急措施及应急演练,数据仓库相关概念,数据仓库体系结构,数据仓库实施方法,目录,三、数据仓库实施方法,数据中心实施路径,信息系统建模用户视图登记数据项整理数据元素规范化业务建模,标准制定主数据建模企业数据建模,分析模型,明确项目范围和目标,三、数据仓库实施方法,维度模型设计四步维度建模法,1选取业务过程2定义粒度3选定维度4确定事实,三、数据仓库实施方法,第一步:
选取业务过程,原则:
针对业务流程进行维度建模确保某个业务流程中的核心数据只被抽取一次保证数据仓库中业务数据一致性误区:
不针对业务流程而针对业务部门进行维度建模为某个部门或某张报表建立单独的维度模型,三、数据仓库实施方法,第二步:
定义粒度,粒度的解释:
粒度传递了同事实表度量值相联系的细节所达到的程度方面的信息。
简单的说,反映了事实表的明细程度。
粒度举例:
超市小票上的购物清单(某位顾客某天在某个超市的某个收银台购买了什么商品)医生的处方药品清单仓库每种产品库存值的月快照原则:
最小粒度原则。
优先考虑具有原子粒度的业务信息,这些数据不能再做进一步的细分数据仓库中存储汇总的、概要性的数据主要是基于数据库性能上的考虑汇总数据不能成为最底层细节数据的替代品,三、数据仓库实施方法,第三步:
选择维度,原则:
在粒度确认后,选取能从各个角度,充分描述问题的维度为每个维度添加丰富的维度属性误区:
没有定义粒度就开始选定维度示例:
常见维度包括日期、产品、顾客、事务类型和状态,三、数据仓库实施方法,第四步:
确定事实,原则:
事实表由包含引用维度的外键和事实构成。
在需求调研时我们可以通过提出“您需要对哪些指标进行统计?
”这样的问题来确定事实。
事实表应该包含所有与业务过程有关的事实。
反映不同业务过程的事实应该放在不同的事实表中。
具有不同粒度的事实必须放在不同的事实表中事实一般在各维度上都有良好的可加性,三、数据仓库实施方法,维度建模总结,维度建模总原则:
需求驱动和数据驱动相结合,维度模型1.业务处理2.粒度3.维度4.事实,业务需求,实际数据,业务需求调研,数据资源规划,三、数据仓库实施方法,案例,背景:
国家烟草专卖局下有33个省级公司,300多家市公司负责卷烟的销售。
每个市公司都有配套部门,包括计划、物流、仓储、分拣等人员,并有几十个卷烟品牌在各地销售,每个卷烟品牌下面又有多个卷烟规格。
各个规格按按价格可以分为多个价类。
国家局已经建设的相关系统对每天卷烟的采购、库存和销售情况进行监控,采集了相关数据。
管理人员希望对卷烟的销售情况进行灵活的分析,及时发现销售情况的问题。
三、数据仓库实施方法,维度建模实例,第一步:
选取业务处理过程:
需要建立一个模型,反映省市公司卷烟的采购、库存及销售过程第二步:
定义粒度每天、每个市公司、每个规格卷烟的采购、库存及销售情况,三、数据仓库实施方法,维度建模实例,第三步:
选取维度日期维度:
年、季度、月、日企业维度:
省公司、市公司产品维度:
品牌、规格价类维度:
价类,三、数据仓库实施方法,维度建模实例,第四步:
选择事实,可加型事实,半可加型事实:
非可加型事实,三、数据仓库实施方法,添加维度表属性,确定哪些字段的值需要被筛选掉或者需要存在确定是否需要同时存储编号和描述,或者只是编号,或者只是描述的信息增加的维度属性会为用户带来更多的查询条件丰富的维度属性将使查询变得更加灵活,三、数据仓库实施方法,维度表设计技巧,代理键:
为每个维度表分配一个代理键,用于唯一地区分表中的每行记录。
数据仓库中维度和事实表之间的每个连接都应该用没有明确含义的整型代理关键字来建立。
应该避免使用自然的操作型产品编码。
丰富的维度组合:
在维度表中提供丰富和全面的维度属性集合,可以显著地提高分析性能。
(代码与描述符、标志和标志值)多列组合字段:
存储全部属性(xxx-yyy-zzz,拆分为xxx、yyy、zzz),三、数据仓库实施方法,维度表设计技巧,当事实表和维度表有多重关系时,没有必要为维度建立多个副本。
每个角色都能通过在事实表中连接维度的视图或别名到适当的外键来存取。
避免空值。
维度列中不应该存在空值,而应该选择某个值作为当数据无效时存储的值。
(数值列经常用0代替,日期经常默认为将来的某个日期),三、数据仓库实施方法,区分数值型维度,如果一个属性通常用于聚集或汇总,那么它就是事实;如果通常被用于提供聚集或汇总的环境,那么它就是维度。
如果一个元素值用于过滤查询、排序、控制聚集、区分主从关系等,该元素通常是维度。
数量单位一般是维度,数量汇总一般是事实。
大多数的维度的内容都会有不同程度的改变。
比如:
用户的职务变更客户更改了他的名称或地址生产企业的变化我们如何去处理这些维度中的变化呢?
直接更新维度属性值插入新维度行新增一列保留历史,三、数据仓库实施方法,缓慢变化维,三、数据仓库实施方法,方式一:
直接更新维度属性值,不能维护维度的历史信息,三、数据仓库实施方法,方式二:
插入新维度行,可以维护维度的历史信息。
维度表中出现包含重复的信息,可以设置当前版本标识位,通过提供distinct查询视图。
按照新的生产企业增加一行,历史记录仍然引用旧的维度信息,新的记录引用新的维度信息,三、数据仓库实施方法,方式三:
新增一列保留历史,可以有限度地维护维度的历史信息。
维度表中不会出现包含重复的信息,新增一列保留上一生产企业,三、数据仓库实施方法,事实表设计技巧事务事实表,事务事实表,也称为事务粒度的事实表。
用于跟踪发生在非连续时间点(即当事务/事件发生时)上的每次事务。
比如订单的预订、发货等。
粒度。
事实表的每一行描述一个特定的事件,但不一定是单个事件。
稀疏性。
仅当事务发生时才生成一条记录。
(比如2号没有销售行为发生,事实表中就没有2号的销售记录。
)可加性。
事务事实表通常记录可加的事实。
大部分可加事实都应该被拆分为完全可加的事实被存储。
(比如同比、占比、利润率等),三、数据仓库实施方法,事实表设计技巧累计快照事实表,周期快照事实表用来记录有规律的,可预见时间间隔的业务累计数据。
通常的时间间隔可以是每天、每周或者每月。
典型的例子是库存日快照事实表、银行账户每日余额事实表等。
1、快照事实表包含至少一个半可加性质的事实。
2、快照事实表是稠密的。
在周期内无论是否发生事务,都会记录一行。
如果在周期内不记录行,查询会非常困难:
检查相关日期(2012-2-2)。
如果没有找到,检查前一天。
重复上述步骤,直到找到为止。
三、数据仓库实施方法,事实表设计技巧累计快照事实表,累计快照事实表一般用来涵盖一个事务的生命周期内的不确定的时间跨度。
典型的例子是用多个日期字段的订单发货事实表。
粒度。
累计快照设计的粒度是依照在业务流程中可识别的实体来构造的。
实体的每个实例在事实表中恰好有一行记录。
记录里程碑的关键日期。
便于统计不同里程碑的花费时间。
事务和累积快照模型能够相互补充。
如果需要同时构建事务模型和累积模型,应该使用事务星型模型作为累计快照的数据源。
卷烟销售合同事实表,三、数据仓库实施方法,ETL设计,ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是多个数据源中分散、零乱、标准不统一的数据整合到一起。
ETL的设计分三部分:
数据抽取、数据的清洗转换、数据的加载。
在设计ETL的时候也是从这三部分出发。
ETL三个部分中,花费时间最长的是T(清洗、转换)的部分,一般情况下这部分工作量是整个ETL的2/3。
数据的加载一般在数据清洗完了之后直接写入DW中去。
三、数据仓库实施方法,ETL设计数据抽取,数据抽取就是从外部异构数据源抽取数据,但是并不是所有的抽取源表数据项都有实际的意义。
第一步:
确定抽取范围第二步:
制定抽取策略第三步:
数据抽取方式,三、数据仓库实施方法,ETL设计数据抽取策略,时间戳方式需要在源系统中业务表中统一添加时间字段作为时间戳(如表中已有相应的时间字段,可以不必添加),每当源系统中更新修改业务数据时,同时修改时间戳字段值。
当作ETL加载时,通过系统时间与时间戳字段的比较来决定进行何种数据抽取。
优点:
ETL系统设计清晰,源数据抽取相对清楚简单,速度快。
可以实现数据的增量抽取。
缺点:
时间戳维护需要由源系统完成,需要修改源系统中业务表结构;所有添加时间戳的表,在业务系统中,数据发生变化时,同时更新时间戳字段,需要对源系统业务操作程序作修改,工作量大,改动面大,风险大。
三、数据仓库实施方法,ETL设计数据抽取策略,全删全插方式每次ETL操作均删除目标表数据,由ETL全新加载数据。
优点:
ETL加载规则简单,速度快缺点:
对于维表加代理键不适应,当源系统产生删除数据操作时,OLAP层将不会记录到所删除的历史数据。
不可以实现数据的递增抽取,不适合大数据量的抽取。
三、数据仓库实施方法,ETL设计数据抽取策略,全表对比方式在ETL过程中,抽取所有源数据,并进行相应规则转换,完成后先不插入目标,而对每条数据进行目标表比对。
根据主键值进行插入与更新的判定,目标表已存在该主键值的,表示该记录已有,并进行其余字段比对,如有不同,进行Update操作,如目标表没有存在该主键值,表示该记录还没有,即进行Insert操作。
优点:
对已有系统表结构不产生影响,不需要修改业务操作程序,所有抽取规则由ETL完成,管理维护统一,可以实现数据的递增加载。
没有风险。
缺点:
ETL比对较复杂,设计较为复杂,速度较慢,三、数据仓库实施方法,ETL设计数据抽取策略,业务日志表方式在源系统中添加系统日志表,当业务数据发生变化时,更新维护日志表内容,当作ETL加载时,通过读日志表数据决定加载那些数据及如何加载。
优点:
不需要修改源系统表结构,源数据抽取清楚,速度较快。
可以实现数据的递增加载。
缺点:
日志表维护需要由源系统完成,需要对源系统业务操作程序作修改,记录日志信息。
日志表维护较为麻烦,对原有系统有较大影响。
工作量较大,改动较大。
有一定风险。
三、数据仓库实施方法,ETL设计数据抽取策略,触发器方式触发器方式是普遍采取的一种增量抽取机制该方式。
根据抽取要求在要被抽取的源表上建立插入、修改、删除3个触发器。
每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个增量日志表,ETL的增量抽取则是从增量日志表中而不是直接在源表中抽取数据,同时增量日志表中抽取过的数据要及时被标记或删除。
优点:
ETL系统设计简单,源数据抽取相对清楚简单,速度快。
可以实现数据的增量抽取。
缺点:
需要在源系统中要抽取的表上增加3个触发器,源系统业务非常频繁时,对系统性能会有一定影响。
三、数据仓库实施方法,ETL设计数据清洗转换,数据转换是指对抽取的源表根据数据仓库系统模型的要求进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统不同格式的数据的一致性和完整性,并按业务要求装入目标表。
数据格式错误(比如卷烟条码必须是13位、日期越界)数据不完整性(比如维度表属性缺失)删除重复记录数据不一致性(比如卷烟在不同系统具有不同的编码规则)数据之间的关联(多个源表加工到一张表中)数据之间的计算(衍生指标,比如利润)数据粒度的转换,三、数据仓库实施方法,ETL设计数据加载,数据加载是加载经转换和汇总的数据到目标数据仓库中。
三、数据仓库实施方法,ETL设计管理ETL过程,需要建立一个能够创建、管理和监视ETL工作流的工作环境。
至少包括以下内容:
作业注册作业调度运行监控任务通知,三、学习资料,推荐书籍,数据仓库工具箱:
维度建模的完全指南:
http:
/StarSchema完全参考手册:
数据仓库维度设计权威指南:
http:
/:
http:
/,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 实施 指南