1、数据仓库和决策支持系统数据仓库和决策支持系统主讲:鲁明羽主讲:鲁明羽大连海事大学信息科学技术学院大连海事大学信息科学技术学院研究方向:智能数据分析与数据挖掘研究方向:智能数据分析与数据挖掘电电 话:话:13889576531Email:课程主要内容课程主要内容n决策支持系统的相关概念决策支持系统的相关概念n决策推理与决策支持系统决策推理与决策支持系统n数据仓库的基础知识数据仓库的基础知识n数据仓库的建造技术数据仓库的建造技术nOLAP技术技术n数据仓库的应用数据仓库的应用n数据仓库的发展趋势数据仓库的发展趋势n数据挖掘方法简介数据挖掘方法简介教材及参考书教材及参考书 教材:教材:1 陈京民等陈
2、京民等.数据仓库与数据挖掘技术(第二版)数据仓库与数据挖掘技术(第二版),电子工业出版社,电子工业出版社,2002007-12-01.7-12-01.22(美)(美)W.H.InmonW.H.Inmon著著,王志海等译,数据仓库王志海等译,数据仓库(第(第4 4版),机械工业出版社,版),机械工业出版社,2002008.8.8.8.33 高洪深,决策支持系统(高洪深,决策支持系统(DSSDSS)理论理论方法方法案例(第四版),清华大学出版社,案例(第四版),清华大学出版社,2002009-09-9-09-0101.参考书:参考书:1 1 徐洁磐,数据仓库与决策支持系统,科学出版徐洁磐,数据仓库
3、与决策支持系统,科学出版社,社,20052005年年4 4月,第月,第1 1版。版。2 黄梯云,智能决策支持系统,电子工业出版社,2001.n 第一章第一章 决策支持系统概述决策支持系统概述本章内容本章内容1.决策支持系统的决策支持系统的定义定义2.决策支持系统决策支持系统产生的背景产生的背景3.决策支持系统的决策支持系统的发展阶段发展阶段4.决策支持系统决策支持系统主要部件主要部件5.决策支持系统与决策支持系统与企业决策企业决策6.决策支持系统的决策支持系统的理论基础理论基础7.与与DSS相关的相关的若干概念若干概念8.决策支持系统的决策支持系统的发展方向发展方向1.决策支持系统的定义n计算
4、机发展初期,主要用于科学计算问科学计算问题题,随后转向事务处理问题。nEDP(Electronic data processing)解决了一些办公自动化中的数据处理问题,但缺乏数据的系统处理能力。n企事业单位的业务数据处理需求,促使MIS系统系统得到迅速发展和普及,解决了信息存储、组织和利用问题,促进了企事业单位信息化的进程,但不能分析挖掘并利用数据库中潜藏的深层知识。1.决策支持系统的定义n20世纪70年代,学术界对于应用系统分析、传统运筹学、MIS等学科的发展和作用进行了反思,认为它们都遇到了一些障碍,主要是由于不重视或者无法正确体现决策者的真实需求和作用。n社会与技术的发展,需要一种既能
5、支持管理者决策、又能体现决策者意图和作用的新技术。1.决策支持系统的定义n1971年,年,美国麻省理工学院的Keen和和Scott Morton在管理决策系统一书中首次首次指出计算机对于决策的支持作用,提出了决策支持提出了决策支持系统系统(DSS-Decision Support Systems)的的概念。概念。n顾名思义,顾名思义,DSS是为管理决策提供技术支持的是为管理决策提供技术支持的计算机系统,主要提供决策所需的必要信息和计算机系统,主要提供决策所需的必要信息和知识。知识。nIBM公司将DSS与BI(Business Intelligence)等同。n 商务智能商务智能1989年年 美
6、美 国国 加加 特特 纳纳 公公 司司 的的 分分 析析 师师 Howard Dresner首次提出首次提出“商务智能商务智能”的概念。的概念。商商务务智智能能是是数数据据仓仓库库、联联机机分分析析处处理理和和数数据据挖挖掘掘等相关技术走向商业应用后形成的一种应用技术。等相关技术走向商业应用后形成的一种应用技术。该该技技术术收收集集、汇汇总总了了与与商商务务活活动动有有关关的的各各种种数数据据,将将其其集集成成到到数数据据仓仓库库中中;采采用用联联机机分分析析技技术术对对商商务务活活动动进进行行实实时时的的监监控控、分分析析,便便于于及及时时采采取取有有效效的的商商务务决决策策,提提升升商商务
7、务活活动动的的绩绩效效;应应用用数数据据挖挖掘掘技技术术对对描描述述商商务务活活动动的的数数据据进进行行挖挖掘掘,以以获获取取有有效效的的商商务务信信息息,从中提取商务知识,为企业商业发展寻找新的机遇。从中提取商务知识,为企业商业发展寻找新的机遇。n 商务智能商务智能商务智能的体系结构商务智能的体系结构 商务智能体系架构主要有:商务智能体系架构主要有:比尔比尔恩门的信息工厂架构恩门的信息工厂架构扎克曼的企业体系结构扎克曼的企业体系结构美国数据仓库研究院的商务智能体系结构美国数据仓库研究院的商务智能体系结构加特纳公司的商务智能体系结构等。加特纳公司的商务智能体系结构等。这这些些体体系系结结构构中
8、中均均包包含含了了商商务务分分析析、OLAP、数据挖掘和数据仓库四大部分。数据挖掘和数据仓库四大部分。1.决策支持系统的定义n一般认为,一般认为,DSS是以是以数据、模型、方法数据、模型、方法以及以及知识知识和和工具工具为主体,结合并利用了计算机强为主体,结合并利用了计算机强大的信息处理能力和人的灵活判断能力大的信息处理能力和人的灵活判断能力,以以交互方式辅助决策者解决半结构化和非结构交互方式辅助决策者解决半结构化和非结构化系统问题,通过定量分析,为各级管理者化系统问题,通过定量分析,为各级管理者提供辅助决策。提供辅助决策。n70年代末期年代末期,DSS一词已经非常流行,由一词已经非常流行,由
9、此开始了信息系统新的发展阶段,并形成了此开始了信息系统新的发展阶段,并形成了决策支持系统这一新学科。决策支持系统这一新学科。2.决策支持系统产生的背景决策支持系统产生的背景2.1 从数据库到数据仓库的必然发展从数据库到数据仓库的必然发展n20世纪世纪60年代后期年代后期=数据库时代数据库时代 三种典型数据库:三种典型数据库:n层次数据库层次数据库n网状数据库网状数据库n关系数据库关系数据库n处理功能以信息检索为主,属于事务处理处理功能以信息检索为主,属于事务处理 事务处理事务处理(TP-Transaction Processing)分析处理分析处理(AP-Analytical Processi
10、ng)2.决策支持系统产生的背景决策支持系统产生的背景n早期的早期的DSS(20世纪世纪80年代初期)年代初期):直接在数据库之上建立直接在数据库之上建立分析模型分析模型,构成一种用于,构成一种用于数据分析、预测和决策的系统,一般为数据分析、预测和决策的系统,一般为双库结构双库结构(图(图1.1),),。n分析模型:以演绎性推理的数学模型为主分析模型:以演绎性推理的数学模型为主 统计分析,线性规划,最小二乘法,回归分析等统计分析,线性规划,最小二乘法,回归分析等DSS两库结构两库结构(三角式三角式)图图1.1 DSS双库结构双库结构n对话部件对话部件 人机接口界面,协调通信n数据库部件(根本)
11、数据库部件(根本)组织形式:层次模型;网状模型;关系模型 n模型部件(模型部件(*核心)核心)与对话部件交互,与数据库部件交互DSS两库结构两库结构(三角式三角式)DSS两库结构两库结构(三角式三角式)模型模型是以某种形式对一个系统的本质是以某种形式对一个系统的本质 属性的抽象描述,揭示系统的功能、属性的抽象描述,揭示系统的功能、行为及其变化规律。行为及其变化规律。模型库系统模型库系统以库的形式对模型进行组以库的形式对模型进行组 织和管理,包括模型库及模型库管织和管理,包括模型库及模型库管理系统。理系统。基于双库的决策系统基于双库的决策系统真真实实系系统统环境环境外部信息外部信息内部信息内部信
12、息与人的行为与人的行为有关的信息有关的信息问题问题决策决策决策者决策者操作操作响应响应对话系统对话系统数据库系统数据库系统模型库系统模型库系统DSS图图1.2 基于双库结构的决策系统基于双库结构的决策系统2.决策支持系统产生的背景决策支持系统产生的背景n基于基于模型库模型库和和方法库方法库的的DSS(三库结构三库结构)随着数学模型的结构日益复杂,并且涉及多种数随着数学模型的结构日益复杂,并且涉及多种数学方法,数学模型中的数学方法部分被分离出去,学方法,数学模型中的数学方法部分被分离出去,形成了数学模型和数学方法两个部分,分别称为形成了数学模型和数学方法两个部分,分别称为(数学)(数学)模型库模
13、型库和(数学)和(数学)方法库方法库,构成了三库构成了三库结构的结构的DSS(20世纪世纪80年代中期,图年代中期,图1.3)。)。n更为复杂的更为复杂的DSS结构(结构(四库,五库,群库四库,五库,群库)DSS三库结构三库结构方法库方法库管理系统管理系统图图1.3 DSS三库结构三库结构DSS四库结构(经典结构)四库结构(经典结构)图图1.4 DSS四库结构四库结构DSS五库结构五库结构图图1.5 DSS五库结构五库结构DSS群库结构群库结构 近年来,有学者提出增加DSS的组成部件,从的组成部件,从而形成而形成5库、库、6库、库、7库、库、8库等群库结构。即:库等群库结构。即:DSS=群库系
14、统群库系统+对话系统(人机界面)对话系统(人机界面)群库系统:群库系统:u 模型库模型库 方法库方法库 知识库知识库 工具库工具库u 数据库数据库 文本库文本库 图形库图形库 语音库语音库 空间信息库空间信息库 DSS功能功能两库结构两库结构 三库结构三库结构 四库结构四库结构 五库结构五库结构 DSS的演变的演变结构化问题半半/非结构化问题非结构化问题 DSS DSS空间范围空间范围桌面DSS网络DSSDSS库结构库结构2.2 TP2.2 TP环境不适应环境不适应 DSS DSS 应用应用1.1.事务处理事务处理(TP)TP)和和DSSDSS所需数据的粒度不同所需数据的粒度不同 在事务处理(
15、在事务处理(TPTP)环境中,操作的是数据库中)环境中,操作的是数据库中的数据(一般为原始的业务性数据)。的数据(一般为原始的业务性数据)。数据格式和数据格式和描述方式并不适合非计算机专业人员进行业务上的描述方式并不适合非计算机专业人员进行业务上的分析和统计分析和统计;而在分析处理环境中,需要的是对原始数据进而在分析处理环境中,需要的是对原始数据进行统计加工的行统计加工的统计性、总结性数据统计性、总结性数据。DSS在利用原始数据进行分析前,往往需要对这些数据进行不同程度的综合,而事务处理系统一般不具备这种能力。2.2 2.2 TP环境不适应 DSS 应用 在事务处理环境中,系统处理特点是:数据
16、的在事务处理环境中,系统处理特点是:数据的存取操作频率高存取操作频率高,而每次操作,而每次操作处理的时间短处理的时间短;数据;数据随时可能修改,从而发生变化;一般为随时可能修改,从而发生变化;一般为当前数据当前数据。在分析处理环境中,系统处理特点与此完全不在分析处理环境中,系统处理特点与此完全不同,某个同,某个 DSS DSS 应用程序可能需要连续几个小时。另应用程序可能需要连续几个小时。另外,可能需要用到大量外,可能需要用到大量历史数据历史数据,并且一般为,并且一般为相对相对稳定的,保存周期长稳定的,保存周期长;可按事先规定好的方式进行;可按事先规定好的方式进行更新,但不允许人工修改。更新,
17、但不允许人工修改。2.2.事务处理事务处理(TP)TP)和分析处理和分析处理(AP)AP)的处理特性不同的处理特性不同2.2 TP2.2 TP环境不适应 DSS 应用3.3.数据集成问题数据集成问题 在事务处理环境中,数据库中的数据一般为面在事务处理环境中,数据库中的数据一般为面向某个应用的向某个应用的局部数据局部数据。=一般一般不需集成不需集成 而在分析处理环境中,而在分析处理环境中,DSSDSS系统需要的是大量、系统需要的是大量、广泛、普遍的广泛、普遍的集成性数据集成性数据。=事先需要集成事先需要集成 全面而正确的数据是进行有效的分析和决策的全面而正确的数据是进行有效的分析和决策的首要前提
18、。相关数据收集得越完整,得到的结果就首要前提。相关数据收集得越完整,得到的结果就越可靠。而当前绝大多数企业内数据的真正状况是越可靠。而当前绝大多数企业内数据的真正状况是分散而非集成的。分散而非集成的。2.2 TP2.2 TP环境不适应 DSS 应用3.3.数据集成问题数据集成问题 造成当前绝大多数企业内数据分散而非集成的造成当前绝大多数企业内数据分散而非集成的原因有多种,主要有:原因有多种,主要有:n 事务处理应用分散而相互独立事务处理应用分散而相互独立n “蜘蛛网蜘蛛网”问题问题n 数据不一致问题数据不一致问题n 外部数据和非结构化数据外部数据和非结构化数据2.2 TP2.2 TP环境不适应
19、 DSS 应用会计系统会计系统ORACLE信用卡系统信用卡系统SybaseInformix储蓄系统储蓄系统财务部SQL Server办公自动化系统办公自动化系统图图1.6 1.6 事务处理应用分散的实例事务处理应用分散的实例图图1.7 蜘蛛网问题蜘蛛网问题2.决策支持系统产生的背景决策支持系统产生的背景n通过对比事务处理通过对比事务处理(TP)与与DSS可知,传统的数据可知,传统的数据库系统不能适应决策支持系统的需要,必须进行库系统不能适应决策支持系统的需要,必须进行改造,通过数据集成和综合,构建数据仓库改造,通过数据集成和综合,构建数据仓库n数据仓库数据仓库(Data Warehouse)是
20、在数据库基础上是在数据库基础上产生的一种数据集合体,是数据库概念的延伸与产生的一种数据集合体,是数据库概念的延伸与推广,目的是适应决策支持的需要推广,目的是适应决策支持的需要n构建数据仓库的过程称为构建数据仓库的过程称为数据数据仓储仓储 (data Warehousing),其成果为其成果为数据数据仓库仓库(data Warehouse)。2.决策支持系统产生的背景决策支持系统产生的背景2.3 从数据仓库从数据仓库DW到业务智能到业务智能BI的发展的发展n数据仓库可以较好地满足数据仓库可以较好地满足数据集成、复杂数据查数据集成、复杂数据查询和询和OLAP的需要的需要n但是对于一些复杂的、深层次
21、的数据分析需求,但是对于一些复杂的、深层次的数据分析需求,数据仓库有一定局限性,必须与数据挖掘技术及数据仓库有一定局限性,必须与数据挖掘技术及可视化方法等相结合可视化方法等相结合n分析模型的扩展分析模型的扩展:从:从演绎推理型演绎推理型扩展至扩展至归纳推理归纳推理(学习)型(学习)型=OLAP(验证型)验证型)+DM(探索型)探索型)n结果展示方法的扩展结果展示方法的扩展:引入最新的可视化方法:引入最新的可视化方法 多媒体界面,多媒体界面,Web发布发布 扩充的分析方法2.决策支持系统产生的背景决策支持系统产生的背景结果展示联机分析处理OLAP数据挖掘DM数据仓库DW图1.7 新的决策支持系统
22、结构2.决策支持系统产生的背景决策支持系统产生的背景n新的新的DSS结构的组成:结构的组成:a)数据仓库数据仓库:是支持:是支持DSS的数据集合体,也是其的数据集合体,也是其决策基础,可为后面的分析决策提供数据支持决策基础,可为后面的分析决策提供数据支持b)OLAP:是一种验证型的模型化分析工具,以数是一种验证型的模型化分析工具,以数据仓库中的数据为基础,按一定的模型进行分据仓库中的数据为基础,按一定的模型进行分析,以人机交互为主要操作手段,最终可获得析,以人机交互为主要操作手段,最终可获得一定的规律性知识,是一种扩充的验证型分析一定的规律性知识,是一种扩充的验证型分析方法。方法。2.决策支持
23、系统产生的背景决策支持系统产生的背景c)数据挖掘数据挖掘:是一种以:是一种以归纳分析归纳分析为主的分析为主的分析工具集合,能够对数据库和数据仓库中的工具集合,能够对数据库和数据仓库中的数据进行归纳性总结与分析,并最终形成数据进行归纳性总结与分析,并最终形成深层次的规律性知识深层次的规律性知识d)结果展示结果展示:是:是DSS中的结果输出与表示工中的结果输出与表示工具,具有本地具,具有本地/远程远程/互联网、单媒体互联网、单媒体/多多媒体等多种展示方式媒体等多种展示方式 2.决策支持系统产生的背景决策支持系统产生的背景n新的新的DSSDSS结构的优点结构的优点1)能较好地反映能较好地反映DSS对
24、数据的真实要求对数据的真实要求2)能够构建较深刻的分析模型能够构建较深刻的分析模型3)能充分利用能充分利用DSS的有效展示能力的有效展示能力4)具有更为广泛的应用性与适用性具有更为广泛的应用性与适用性5)具有多学科的集成优势具有多学科的集成优势 数据库,人工智能,数学,多媒体,网络技术,数据库,人工智能,数学,多媒体,网络技术,管理学,心理学,运筹学,系统工程,经济学,管理学,心理学,运筹学,系统工程,经济学,联邦数据仓库联邦数据仓库数据集市数据集市已有数据已有数据 抽取抽取 清理清理 转换转换 信息查询信息查询 分析评价分析评价 加载加载 建立索引建立索引 聚合聚合/汇总汇总复制复制数据集分
25、布数据集分布OLAP Web presentDM数数据据采采集集系系统统中中心心医院信息系统医院信息系统电子病案库电子病案库中中心心 中中心心电子病案库电子病案库。临床流行临床流行 病学病学循证医学循证医学中医诊断中医诊断 学学采集工具采集工具采集界面采集界面图图1.8 数据仓库体系结构的一个实例数据仓库体系结构的一个实例图图1.9 DSS系统的一个实例系统的一个实例知识库知识库中医药诊疗中医药诊疗临床信息数据库临床信息数据库数据仓库数据仓库OLAPETL工具工具其它数据源其它数据源OLAP结果结果数据挖掘数据挖掘知识库管理知识库管理元数据元数据元数据管理元数据管理其它预处理工具其它预处理工具
26、模式模式结果评价结果评价可视化工具可视化工具系统输出结果系统输出结果数据预处理数据预处理3.决策支持系统的发展阶段决策支持系统的发展阶段I.数据库阶段数据库阶段DSS发展的初级阶段,主要以数据库为基础,构发展的初级阶段,主要以数据库为基础,构建建分析程序分析程序,20世纪世纪80年代初形成,并在年代初形成,并在80年代年代中、后期得到发展。中、后期得到发展。这个阶段涉及几种专门程序:这个阶段涉及几种专门程序:1)特定查询程序特定查询程序用户(特别是市场和金融部门的用户)向用户(特别是市场和金融部门的用户)向IT部部门提出特定查询需求(例如门提出特定查询需求(例如VIP客户列表),客户列表),I
27、T部部门编制专门的程序来提供特定查询报表。门编制专门的程序来提供特定查询报表。3.决策支持系统的发展阶段决策支持系统的发展阶段2)特殊抽取程序特殊抽取程序IT部门预先估计用户的各种查询需求,编制从部门预先估计用户的各种查询需求,编制从不同业务系统中抽取目标数据的程序,定期运行,不同业务系统中抽取目标数据的程序,定期运行,以满足用户的需求。有时为了满足特殊需要,也需以满足用户的需求。有时为了满足特殊需要,也需单独编制专用程序。单独编制专用程序。3)小型通用应用程序小型通用应用程序IT部门对数据抽取处理进行规范化,并基于所部门对数据抽取处理进行规范化,并基于所产生的抽取文件,开发一些简单的应用程序
28、。用户产生的抽取文件,开发一些简单的应用程序。用户只要给定所需要的特定报告的参数,报表打印程序只要给定所需要的特定报告的参数,报表打印程序就可以输出满足需要的报表。其中一些高级程序允就可以输出满足需要的报表。其中一些高级程序允许用户联机查看结果信息(所见即所得)。许用户联机查看结果信息(所见即所得)。3.决策支持系统的发展阶段决策支持系统的发展阶段II.数据仓库阶段数据仓库阶段20世纪世纪90年代初形成,并在年代初形成,并在90年代得到发展与普及,年代得到发展与普及,是是DSS发展的中级阶段(过渡阶段),主要以数据仓库为基发展的中级阶段(过渡阶段),主要以数据仓库为基础,构建础,构建DSS。在
29、这个阶段,国内外出现了许多所谓的在这个阶段,国内外出现了许多所谓的信息中心信息中心或或数据数据中心中心。下级单位需要根据上级机构的要求,逐层向上级机构。下级单位需要根据上级机构的要求,逐层向上级机构传送业务数据。用户可以向信息中心提出特定查询请求,可传送业务数据。用户可以向信息中心提出特定查询请求,可以在自己的终端上查看信息。以在自己的终端上查看信息。IT专业人员会在信息中心帮助专业人员会在信息中心帮助用户获得所需要的合法内容。用户获得所需要的合法内容。在这种情况下,报表和屏幕上的信息都是预先定制好的,在这种情况下,报表和屏幕上的信息都是预先定制好的,基本上可以满足用户各种查询请求。基本上可以
30、满足用户各种查询请求。3.决策支持系统的发展阶段决策支持系统的发展阶段III.现代现代DSS阶段(阶段(BI阶段)阶段)20世纪世纪90年代末期形成,至今已构成一个成熟年代末期形成,至今已构成一个成熟的体系与学科。它集成了现代计算机技术多个相关的体系与学科。它集成了现代计算机技术多个相关领域的最新成果,可以为企业决策提供有力的支持领域的最新成果,可以为企业决策提供有力的支持在这个阶段,在这个阶段,DSS系统一般由抽取文件支持,采系统一般由抽取文件支持,采用菜单方式,提供在线信息,能打印特定的报表。用菜单方式,提供在线信息,能打印特定的报表。许多这样的许多这样的DSS系统是为系统是为市场营销等部
31、门市场营销等部门服务的,服务的,主要提供战略决策信息。主要提供战略决策信息。3.决策支持系统的发展阶段决策支持系统的发展阶段 必须认识到:必须认识到:nDSS系统的构建过程必须有系统的构建过程必须有用户和领域专用户和领域专家的参与家的参与n需要用到大量需要用到大量领域知识和启发式知识领域知识和启发式知识nDSS或或BI对于企业决策仅仅能够起到辅助对于企业决策仅仅能够起到辅助与支持的作用,而最终的主要决策者仍是与支持的作用,而最终的主要决策者仍是企业的管理人员企业的管理人员 4.决策支持系统主要部件决策支持系统主要部件(1)人机交互接口:人机交互接口:系统交互设备和软件系统交互设备和软件n功能1
32、)提供多种交互方式,满足不同决策者的需求提供多种交互方式,满足不同决策者的需求2)具有方便快捷的输入和明确直观的输出功能具有方便快捷的输入和明确直观的输出功能3)协调各部件通信和运行协调各部件通信和运行4)提供系统保密机制提供系统保密机制 4.决策支持系统主要部件决策支持系统主要部件(1)人机交互接口人机交互接口-主要研究内容主要研究内容 集中在以下几个方面:n可视化图形界面技术n基于多媒体的界面技术n基于Web的信息展示n自然语言界面技术n多通道用户界面n虚拟现实技术4.决策支持系统主要部件决策支持系统主要部件(2)数据库子系统数据库子系统 数据库子系统包括数据库及其管理系统,其基本技术与一
33、般数据库及其管理系统基本相同,但也有自己的特点。4.决策支持系统主要部件决策支持系统主要部件与传统数据库系统的共同点:n 数据独立性n 最小冗余度n 共享性强n 统一管理与控制n 适当的响应时间n 整体性(完整性)n 可修改性和可扩充性比较好n 安全和保密n 简明性4.决策支持系统主要部件决策支持系统主要部件DSS结构中结构中数据库子系统的特点:n数据组织和管理:面向决策支持过程n数据使用:面向模型和模型生成n数据描述:面向不同的决策者4.决策支持系统主要部件决策支持系统主要部件(3 3)模型库子系统)模型库子系统:包括模型库和模型:包括模型库和模型库管理系统。库管理系统。a.与与数据库子系统数据库子系统的交互:获得模型所需数据,的交互:获得模型所需数据,实现模型输入、输出和中间结果存取的自动化;实现模型输入、输出和中间结果存取的自动化;b.与与方法库子系统方法库子系统的交互:可实行目标搜