第1章数据仓库概述.pptx
- 文档编号:15122879
- 上传时间:2023-07-01
- 格式:PPTX
- 页数:89
- 大小:361.79KB
第1章数据仓库概述.pptx
《第1章数据仓库概述.pptx》由会员分享,可在线阅读,更多相关《第1章数据仓库概述.pptx(89页珍藏版)》请在冰点文库上搜索。
第1章数据仓库概述,DW&DM,1l数据库到数据仓库的演变,DW&DM,第一章数据仓库概述,1.1数据库到数据仓库的演变,1.3仓库的应用前景,数据库到数据仓库的演变,数据库的发展企业运营环境以数据库为中心,企业级数据库,市场部销售、市场策划财务部产生财务报表人事部人员变动情况,蜘蛛网问题(图1-1),数据分析的结果缺乏可靠性图1-2中展示了某电信公司的市场部和计划部对业务A是否具有市场前景的分析过程和结果。
市场部认为“业务A的市场前景很好”,而计划部却得到截然相反的结果“业务A没有市场前景”。
作为企业的最棕决策者,将如何根据这样的结论进行决策呢?
一、蜘蛛网问题,DW&DM,第一章数据仓库概述,1.1数据库到数据仓库的演变,1.3仓库的应用前景,图1-1企业中存在的“蜘蛛网”现象,企业级,部门极,抽取程,个人级,DW&DM,第一章数据仓库概述,1.1数据库到数据仓库的演变,1.3仓库的应用前景,外部市场信息A,分析程序1,分析结果1:
业务A市场前景很好,分析结果2:
业务A没有市场前景,外部市场信息B,外部市场信息C,抽取数据的时间不同,分析程序2,抽取数据的内容不同,外部信息,分析程序和内容不同,图1-2两个分析过程的差异,企业级数据库,市场部,计划部,两个分析的数据都来自于企业数据库,但是结论却不同,下面通过分析两个过程的差异来寻求原因。
首先,市场部门和计划部门从企业数据库中抽取的数据可能不同,比如,市场部抽取的是在大客户中对业务A的使用情况,而计划部抽取的是在普通客户中对业务A的使用情况,二者分析的数据存在差异。
其次,市场部分析的时间是2001年3月5日,而计划部分析的时间是2001年3月25日,两个分析过程从企业数据库中抽取数据的时间不同,企业数据库中的内容已经发生了变化,这很可能导致分析的结果不同。
再次,分析业务的发展趋势常常需要引入企业外部的信息,比如客户的满意程度,国家的政策等,市场部门引用的外部信息来源可能与计划部不同,而外部信息必然是仁者见仁,智者见智,这也可能是导致最终分析结果不同。
最后,市场部门使用的分析程序可能与计划部不同,通过上面的分析,我们可以看出导致两个分析过程出现截然相反的结论的根本原因是数据的来源部一致,对于不同来源的数据的分析结果显然是不一致的。
2.数据处理的效率很低,在错综复杂的体系中,不同级别的数据库可能使用不同类型的数据库系统,对于有巨型数据量的企业级数据库可能使用IBMDB2,对于中小型数据库可能使用SQLServer。
各种数据库的开发工具和开发环境不同,抽取程序应用的技术不同,因而难以集成。
如果一个大型企业的决策者需要一份关于公司整体运营情况的报表,通常需要动用大量的人力和物力才能达到,首先,需要确定报表涉及的内容分布在哪个数据库的哪个位置,然后调动各个部门的程序员分析员对应用进行分析,设计和编码。
由于数据分散在各个数据库中,因此需要编写的程序很多。
由于在企业中使用的数据库类型很多,因此可能需要使用多种的技术来实现。
程序的重用性很差,因为决策者明天想看的内容很可能和今天是不同的。
可见,动用大量的人力,物力和时间才能完成的报表不仅实效性很差,数据处理的效率也很低。
DW&DM,第一章数据仓库概述,1.1数据库到数据仓库的演变,1.3仓库的应用前景,图1-3以数据库为中心的环境发展为以数据仓库为中心的环境的过程示意图,3.难以将数据转化成信息除了数据处理效率和数据的可信度之外,“蜘蛛网”式的结构还难以将数据转化为信息。
比如,某电力公司想分析某个大客户今年的情况和过去的3年有什么不同?
大客户的情况可能包括客户的呼叫行为,话费情况,交费情况,咨询问题等。
因此想要比较完整的回答这个问题,实际上需要将客户多方面的数据综合成信息。
在实际的数据库系统中,记录客户呼叫行为的数据库通常只保留客户最近3个月的呼叫话单,帐务数据库可能保留客户今年的交费情况,客户咨询数据库可能保留客户2年内的咨询信息,如图14所示。
每个数据库由于其数据量和业务处理的需求不同,对于历史数据的存储时间也不同,因此以现有的数据库系统难以提供完整的历史数据,鉴于这样的原因,用户根本不可能从这些数据中提取出完整的信息。
DW&DM,第一章数据仓库概述,1.1数据库到数据仓库的演变,1.3仓库的应用前景,图1-4现有数据库系统难以提供完整的数据历史数据,操作型系统的使用人员通常是企业的具体操作人员,处理的数据通常是企业业务的细节信息,其目标是实现企业的业务运营;而分析型系统的使用人员通常是企业的中高层的管理者,或者是从事数据分析的工程师。
分析型系统包含的信息而非具体的细节,其目的是为企业的决策者提供支持信息。
操作型系统和分析型系统的划分如图14所示。
操作型处理和分析型处理的分离,划清了数据处理的分析型环境和操作型环境之间的界限,从而由原来以单一数据库为中心的数据环境发展为以数据库为中心的业务处理系统和以数据仓库为基础的分析系统。
企业的生产环境,也由以数据库为中心的环境发展为以数据仓库为中心的环境,如图15所示。
DW&DM,第一章数据仓库概述,1.1数据库到数据仓库的演变,1.3仓库的应用前景,图1-5以数据库为中心的环境发展为以数据仓库为中心的环境的过程示意图,DW&DM,2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,1.2数据仓库体系结构,一、数据仓库体系结构(图1-6)由于数据库和数据仓库的出发点不同,数据仓库将独立于业务数据库系统,但是数据仓库又同数据库系统息息相关。
也就是说,数据仓库不是简单对数据进行存储,而是对数据进行“再组织”。
2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,数据挖掘系统/数据展现系统,数据集市,数据提取,提取仓库,数据,元数据,数据集市,数据集市,数据集市,数据仓库存储,企业外部数据,业务操作型数据,2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,数据清洗/转换,DW&DM,1.3数据仓库重要名词,数据提取(DataExtraction)数据抽取数据仓库按主题从业务数据库提取相关数据的过程。
从数据仓库的角度来看,并不是业务数据库中的所有数据都是决策支持所必须的。
数据仓库按照分析的主题来组织数据,我们只需要提取出系统分析必须的那一部分数据。
例如:
某超市确定以分析客户的购买行为为主题建立数据仓库,只需将同客户购买行为相关的数据提取出来,超市员工的数据没有必要放进数据仓库。
2数据清洗(DataCleaning)企业建立很多不同的数据库数据的不一致是将错误的、不一致的数据在进入数据仓库之前予以更正或删除,以免影响DSS决策的正确性。
图22所示,客户数据库中有客户基本信息表,客户服务数据库中有一张客户咨询信息表,由于操作人员的失误,将客户信息表中的“张山”在客户咨询表录入为“张三”。
图23所示,客户信息表“张三”的手机状态是正常,此时张山去办理停机,在客户业务变更表中,手机状态修改为“停机”,如果数据刷新不够实时,导致客户基本信息表和客户业务表变更不同步。
2.1数据仓库的体系结构,DW&DM,客户基本信息表,客户咨询信息表,客户基本信息表,客户业务变更信息表,图1-7操作失误导致数据不一致,图1-8数据刷新不时实导致数据不同步,客户号:
100姓名:
张山年龄:
23,客户号:
100姓名:
张山咨询问题:
客户号:
100姓名:
张山年龄:
23手机服务状态:
正常,客户号:
100姓名:
张山业务变更:
停机,2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,3数据转化(DataTransformation)(图2-4)把源数据的数据格式转换成统一的数据格式的过程。
也叫:
数据集成(DataIntegration)由于业务系统可能使用不同的数据库厂商的产品,比如IBMDB2、informix、Sybase.Sqlserver等,各种数据库产品提供的数据类型可能不同,需要将不同格式的数据转换成统一的格式。
4提取仓库由于业务数据库系统中的数据和数据格式存在不一致的问题,因此在数据放进数据仓库前需要进行缓存,以等待清洗和转换,这些数据缓存的位置即提取仓库。
提取日志(ExtractionStore)当从业务系统提取数据时,需要记录提取数据的过程,该过程被记载在提取日志中。
提取日志详细的记录了数据的来源,数据的转化过程等。
6数据管理员是负责数据导入时管理数据质量的专业人员,还检阅提取日志,发现其中数据提取的错误和源于业务系统的错误。
2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,图1-9数据格式的不一致,2000-2-3,.,2000-2-5,2000-2-4,2/3/2000,.,2/5/2000,2/4/2000,2000/2/3,.,2000/2/5,2000/2/4,2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,7外部数据源(ExternalSource)从系统外部获取的同主题分析相关的数据来源。
例:
采购部(确定采购订单)采购货单产品销售情况(内部)商品的价格水平质量水平竞争对手的采购信息(外部),数据仓库存储用于存放数据仓库数据和元数据的存储空间。
数据存储方式:
多维数据集,关系型数据库以及二者的结合。
数据业务系统中提取的或者从外部数据源中导入的数据进行清洗,转化后成为数据仓库的原始数据,它们是数据仓库数据的一部分,不是全部。
2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,10元数据(MetaData)(图2-5)数据是对事物的描述,而元数据是对数据的描述;它提供了有关数据的环境。
数据仓库中的元数据有两类:
第一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包括所有源数据的名称,属性及其在提取仓库中的转化;第二种是在数据仓库中是用来与最终用户的多维商业模型和前端工具之间建立映射的,这种数据成为决策支持系统元数据,包括
(1)数据仓库中的信息的种类,存储位置,存储格式
(2)信息之间的关系,信息和业务的关系,数据使用的业务规则(3)数据模型(4)数据模型和数据仓库的关系。
例如:
从customer业务数据库的user表中取出3列(user_id,user_name,address),在清洗转换过程中,将user_name从char(20)转化为varchar(50)格式,最终放进user维表(User_ID,User_name,Address)中,转换后(User_ID,User_name,Address)3列原始的存放位置、进行的清洗转化处理、数据最终的存放位置、数据格式、数据使用的规则等等都作为元数据的一部分,图25所示。
2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,Char(20)User_name,Varchar(50)User_Name,User表,User_id,User_name,address,User_ID,User_Name,Address,User维表,图1-10元数据内容示例,原始数据位置,数据清洗转化,数据最终存放位置,格式转化,Customer数据库,维表数据库,2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,数据集市(DataMarket)面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据子集。
减少数据处理量,使信息更快捷,灵活。
DW&DM,权威定义,WilliamInmon博士90年代初,给出:
数据仓库:
通常是一个面向主题的、集成的、随时间变化的、但信息本身是相对稳定的数据集合,用于对管理决策过程的支持。
1.4数据仓库定义,操作型数据和分析型数据的特性比较,2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,一、数据库的功能和特性,数据的安全性(以SQLServer为例),用户,DBAP,DBMS,操作系统,数据库,身份验证,操作权控制,文件操作控制,加密存储与控制,计算机系统的安全模式,数据库数据的加密存取防止有意的非法活动;使用用户身份验证限制操作权控制有意的非法操作;提高系统可靠性数据备份控制无意的损坏,2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,2数据处理的并发性,事务T1时间事务T2读A=16T1T2读A=16B=B2,写回B=200A=A-1T3写回A=15T4A=A-4写回A=12(覆盖了T1对A的修改),丢失数据修改,2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,事务T1时间事务T2对A加X锁T1获得读A=16T2T3要对A加X锁等待修改A=A1T4等待写回A=15释放对A的X锁T5等待T6获得对A的X锁T7读A=15T8修改A=A4写回A=11T9释放对A的X锁,没有丢失数据,2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,3事务处理的可靠性,事务(Transaction):
是用户定义的数据操作系列,这些操作可作为一个完整的工作单元。
一个事务内的所有语句是一个整体,要么全部执行,要么全部不执行。
例如:
A账户向B账户转帐100元第一个动作A账户100元第二个动作B账户+100元,事务的特征:
(1)原子性(Atomicity)事务是数据库的逻辑工作单位,其中的操作,要么都进行,要么都不进行;
(2)一致性(Consistency)事务的执行结果,必须是从数据库的一个一致性状态转换到另一个一致性状态;(3)隔离性(Isolation)一事务的操作不受其它事务的干扰,即事务操作中使用的数据是隔离的;(4)持续性(Durability)事务一旦提交,对数据库的操作就是永久性(Permanence)的。
2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,4数据的一致性和完整性,二、数据仓库的功能和特性,1面向主题主题:
用户使用数据仓库进行决策时所关心的重要方面。
(如,销售情况、利润情况、客户情况)面向主题:
数据仓库中的信息是按主题进行组织的,为按主题进行决策的过程提供支持。
(尽管数据仍以表方式存储,但数据组织和建模方法已不同),需要数据库设计、应用开发、系统维护等方面进行复杂的大量工作。
由此可见,操作型的环境涉及到事务管理,封锁管理,死锁管理,数据备份恢复,系统日志管理,数据存储管理等一系列复杂技术。
2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,计费数据库,客户服务数据库,市场信息数据库,帐务数据库,收益数据,客户数据,市场数据,图1-11数据仓库面向主题的特性,现有业务系统,2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,客户标识号客户姓名客户年龄客户地址.,客户基本信息表,客户呼叫记录表,客户标识号客户呼叫时间客户呼叫地点客户呼叫号码呼叫时长呼叫费率.,客户话费表,客户标识表客户本月总话费本月月租费本月通话费本月短信费.,客户标识号客户咨询内容咨询答案.,客户咨询表,图1-12属于相同主题域的数据集合使用相同的公共键码连接,2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,2数据的集成性,OLTP建表的数据在多个库中抽取蜘蛛网问题OLAP要求数据的一致性集成的(李强,李强)图2-8所示中,示例了一个数据集成的例子,某电信公司建立数据仓库时包括了客户这个主题,公司的业务系统中,客户的信息分散在各个业务数据库中,需要从客户基本信息表,客户呼叫记录表,客户话费表,客户咨询表等表中将数据提取并进行集成。
图2-9示例了在实际问题中可能遇到的需要进行数据转换的工作。
数据的集成性需要对数据进行ETL,特别是转化和清洗,其中,要注意的问题:
数据格式测量单位数据代码数据名称数据的集成是动态的,不是静态的。
2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,客户基本信息表,客户标识号客户姓名客户年龄客户地址.,客户呼叫记录表,客户标识号客户呼叫时间客户呼叫地点客户呼叫号码呼叫时长呼叫费率.,客户话费表,客户标识号客户本月总话费本月月租费本月通话费本月短信费.,客户咨询表,客户标识号客户咨询内容咨询答案.,客户标识号客户姓名客户年龄客户地址.,客户标识号客户呼叫时间客户呼叫地点客户呼叫号码呼叫时长呼叫费率.,客户标识号客户本月总话费本月月租费本月通话费本月短信费.,客户标识号客户咨询内容咨询答案.,图1-13数据从操作型环境提取到分析型环境的同时进行数据集成,2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,客户信息表,客户呼叫记录表,客户话费表,客户咨询表,1,0,FM,女男,fm,A表通话时长,B表通话时长,C表通话时长,2小时,120分钟,7200秒,客户信息表,客户呼叫记录表,客户话费表,客户咨询表,name,user_name,USERNAME,NAME,客户信息表,客户呼叫记录表,客户话费表,客户咨询表,姓名,姓名,姓名,姓名,char(10),varchar(10),char(12),varchar(20),统一编码/编码间转化,统一度量单位,统一变量命名,统一字段格式,集成后数据,图1-14数据集成中数据转化的工作,2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,任务调度:
定期进行数据刷新,业务系统,数据清洗,转换整理,数据仓库,图1-15数据刷新示意,进一步考虑,决策支持系统需要的不是静态的集成,而是动态的集成。
静态集成的最大缺点在于数据集成后数据源中的数据发生了变化,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。
因此数据仓库必须能够使集成数据以一定的周期(例如24小时)进行刷新,使决策者能够使用新增的数据,其过程如图1-15所示。
2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,3数据的稳定性,OLTP中的操作存入、查询、修改、删除OLAP中的操作存入、查询(注意:
两个存入的不同),数据仓库中,数据一旦写入,就不再变化了。
所以,也可以把数据仓库看作是一个虚拟的只读存储器。
我们在图中演示了一个简单的例子。
例如在3月23日,100号顾客的消费金额变成250元,这一信息在业务系统中被更新了。
但是在数据仓库中(假定数据仓库每天进行一次数据提取),3月23日的数据提取结果是在数据仓库中增加了记录XXX,说明100号顾客在3月23日的消费金额为200元,在执行3月24日的数据提取工作后,原先记录的XXX并没有发生任何的改变,而是在数据仓库中增加了一条新的纪录YYY,说明100号顾客在3月24日的消费金额为250元。
可见,数据仓库实际上是为100号顾客的消费行为进行了定期的拍照,并将快照存储起来后供后续的分析工作使用。
2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,客户号:
100费用(元):
200,客户号:
100费用(元):
250,记录号:
XXX时间:
3月23日客户号:
100费用(元):
200,记录号:
XXX时间:
3月23日客户号:
100费用(元):
200,记录号:
YYY时间:
3月24日客户号:
100费用(元):
250,业务运营系统,数据仓库系统,数据仓库中增加一个记录,3月23日数据抽取,3月24日数据抽取,数据更新,图1-16数据仓库的数据稳定性,2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,4数据随时间变化的特性OLTP的存入=修改OLAP的存入=增加(数据保存大约510年)数据仓库记录系统的各个瞬态,并通过各个瞬态的连接形成动画。
由于在数据仓库中数据只增不删,这使得数据仓库中的数据总是拥有时间维度。
数据仓库实际上就是记录系统的各个瞬间,并通过各个瞬间连接起来形成动画。
从而在数据分析的时候再现系统运动的全过程。
数据提取的周期实际上决定了动画间隔的时间,数据提取的时间短,则动画的速度快,图1-17示意了这个特点。
2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,业务系统的运营,数据仓库的快照集合,t1,t2,t3,tn,图1-17数据仓库数据随时间变化的特点,2.1数据仓库的体系结构,2.2数据仓库的特点,2.3数据仓库的数据组织,2.4数据仓库建设的两条技术路线,2.5操作数据存储ODS,2.6外部数据和非结构数据,DW&DM,5多维性,数据是带有时间轴的数据是多维的形成立方体(Cube),支持决策,三、数据仓库的工作目标,2.1数据仓库的体系结构,2.2数据仓库的特点
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 概述