f数据仓库技术介绍(ppt99).pptx
- 文档编号:15123014
- 上传时间:2023-07-01
- 格式:PPTX
- 页数:99
- 大小:2.31MB
f数据仓库技术介绍(ppt99).pptx
《f数据仓库技术介绍(ppt99).pptx》由会员分享,可在线阅读,更多相关《f数据仓库技术介绍(ppt99).pptx(99页珍藏版)》请在冰点文库上搜索。
数据仓库技术介绍,了解你的组织,了解你的客户,了解你的供应商,嵇晓,内容提要,动机与需求数据仓库技术数据仓库在宝钢的实践结束语,面临的问题,人们在日常生活中经常会遇到这样的情况:
超市的经营者希望将经常被同时购买的商品放在一起,以增加销售;保险公司想知道购买保险的客户一般具有哪些特征;医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助;,企业面临的问题,经过多年的计算机应用和市场积累,许多企业保存了大量原始数据和各种业务数据,它是企业生产经营活动的真实记录由于缺乏集中存储和管理,这些数据不能为本企业加以利用,不能进行有效的统计、分析及评估,无法将这些数据转换成企业有用的信息,数据爆炸问题,自动的数据收集工具和成熟的数据库技术导致巨大的数据存储在文件系统、数据库和其它的信息库中。
我们会淹死在数据中,但却为信息、知识所饿!
面临的挑战,如何在堆积如山的企业交易数据中发现具有商业价值的闪光点?
如何使您的企业或组织在激烈的市场竞争中保持对客户的吸引力?
如何预先发现和避免企业运作过程中不易察觉的商业风险?
宝钢整体产销信息管理系统,L4,宝钢计算机系统的架构,宝钢的现状及需求,宝钢拥有许多传统的OLTP(联机事务处理)系统,担负着许多重要的日常事物处理工作,在宝钢的生产经营活动中扮演着重要角色。
经过多年的计算机应用,宝钢积累了大量丰富翔实的原始生产实绩数据和各种业务数据,它反映了企业生产经营过程中规律性的信息和知识,由于缺乏集中存储和管理,对如何充分有效地利用这些数据,却一直没有很好的解决方法,不能利用它们进行有效的统计、分析及评估,无法将这些数据转换成企业真正有用的信息。
宝钢追求的目标,宝钢作为中国的特大型钢铁企业,它的主要建设目标是在激烈的国际国内市场竞争中立于不败之地,并且要加强管理、优化资源,追求效益最大化。
这就要求使其生产和经营过程共同达到优化,例如,能够快速准确地提供报价、确定交货期、以及确保产品质量等,并且制定有正确的企业发展战略,以适应市场需求的变化,能做出及时反应。
宝钢股份的质量方针,“重用户、重改进、重效率、重价值,为社会提供世界一流的产品和服务。
”-宝钢股份质量方针随着市场竞争的加剧和用户要求的提高,从大量数据中挖掘规律性知识,制定正确的生产策略和市场策略,显得越来越重要。
市场需求是技术发展的源动力,数据仓库的出现和发展是数据库和OLTP技术发展、数据库应用深化的产物;目的是把数据库中的大量数据转化为有用信息,为企业更好地进行决策服务。
内容提要,动机与需求数据仓库技术数据仓库在宝钢的实践结束语,在早期,业务人员考虑如何实现自动化.,计算机发展史,在数据库应用的早期,计算机系统所处理的是从无到有的问题,是传统手工业务自动化的问题。
例如银行的储蓄系统、电信的计费系统,它们都属于典型的联机事务处理系统。
computer,手工业务自动化,computer,computer,很快就建立了许多应用系统,在当时,一个企业可以简单地通过拥有联机事务处理的计算机系统而获得强大的市场竞争力。
联机事务系统的建立,联机事务系统的建立(续),当时单位容量的联机存储介质比现在昂贵得多,相对于市场竞争的压力,将大量的历史业务数据长时间联机保存去用于分析显然是过于奢侈了。
因此,联机事务处理系统只涉及当前数据,系统积累下的历史业务数据往往被转储到脱机的环境中。
在计算机系统应用的早期,还没有积累大量的历史数据可供统计与分析。
从而,联机事务处理成为整个80年代直到90年代初数据库应用的主流。
在数据仓库以前大都是事物处理系统(OLTP)的天下(1965-1990),这个现状持续了25年,它主要实现-数据的收集-数据的存储-数据的在线存取,联机事务系统的功能,但是在OLTP系统中存在着若干问题-数据不是综合的-没有历史数据-没有汇总数据,联机事务系统的问题,computer,computer,computer,Q1Q2,Q3,Q1Q2Q3Q4,管理者想要了解公司的情况,数据集成问题,有多少品种?
computer,缺乏数据集成不是一个唯一的问题,-历史数据的缺乏是另一个应用问题,历史数据问题,computer,另一个问题是汇总.,汇总问题,computer,-贯穿公司的数据集成?
-公司的历史数据?
-详细数据及汇总数据?
获取信息的重要因素,应用在不断地进步,当联机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势;他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,从而做出有利的决策。
决策的需要,决策需要对大量的业务数据包括历史业务数据进行分析才能得到,而这种基于业务数据的决策分析,我们把它称之为联机分析处理。
如果说传统联机事务处理强调的是更新数据库向数据库中添加信息,那么联机分析处理就是要从数据库中获取信息、利用信息。
联机分析处理,“我们花了20多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。
”-著名的数据仓库专家RalphKimball,市场需求是技术发展的源动力,早期应用系统,PC电子表格,归档文件,OLTP系统,数据仓库,获得信息,如何获得信息,第一,所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心信息查询的方便与快捷;联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全;,获得有用的信息并非想象的那么容易
(1),第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;,获得有用的信息并非想象的那么容易
(2),第三,业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。
获得有用的信息并非想象的那么容易(3),针对这一问题,人们专门为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。
这个数据中心就叫作数据仓库。
数据仓库的通俗解释,数据仓库是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。
数据仓库的通俗定义,以辩证的眼光来看,数据仓库的兴起实际上是数据管理的一种回归,是螺旋式的上升。
今天的数据库就好比当年的层次数据库和网型数据库,它们面向事务处理;今天的数据仓库就好比是当年的关系数据库,它针对联机分析。
所不同的是,今天的数据仓库不必再为联机事务处理的特性而奔忙,由于技术的专业化,它可更专心于联机分析领域的发展和探索。
数据库与数据仓库的辩证关系,传统的事务处理环境不适宜于决策支持应用事务处理和分析处理的性能特性不同数据集成问题数据动态集成问题历史数据问题数据的综合问题操作型环境和分析型环境的分离,从数据库到数据仓库,操作型数据&分析型数据的区别,业务系统,DSS(决策支持系统),现在,1990,数据仓库概念的诞生,数据仓库的定义,数据仓库是面向主题的、综合的、不同时间的、稳定的时间集合,主要用于支持经营管理中的决策制定过程数据仓库之父-BillInmon,数据仓库的四个基本特征,数据仓库的数据是面向主题的数据仓库的数据是集成的数据仓库的数据是不可更新的数据仓库的数据是随时间不断变化的,数据仓库的体系结构,OLAP,数据的抽取
(1),数据的抽取是数据进入仓库的入口。
由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。
数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。
数据的抽取
(2),数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。
存储和管理,数据仓库的真正关键是数据的存储和管理。
数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。
要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。
信息探索,信息探索实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。
多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。
数据仓库的组成,集成和转换,1,2,3,4,1、通过不干净的遗留系统;2、不合适的集成;3、数据仓库的过期;4、用户需求的改变。
如何避免脏数据进入,如果数据质量不能被信任,则数据仓库将失去价值,数据管理是一个循环往复的过程,包括四个基本功能:
定义量度标准报告改善,数据质量管理,ODS用于集成相关应用系统并且为决策支持系统提供数据基础,操作数据存储(ODS),扩展数据到近线存储器,可以极大地降低数据仓库环境的成本,并且可以将存储能力扩展到无限大,近线存储器,借助探索仓库-可以极大的降低探索的成本-极大地提高探索速度-探索的能力呈指数级增长,探索仓库,什么是企业数据仓库?
企业数据仓库是一个环境,通过有效的信息来满足和促进企业的决策制定过程。
企业数据仓库的另一种定义,它是一种可信的企业数据库平台,这些数据来自于各种各样的数据源,并且在经过抽取、清洗和转换后根据用户的查询适时地提供给用户。
-综合数据-分粒度的数据-历史数据-共享的数据-决策的基础-大的存储量,企业数据仓库,-分粒度的数据-公司的公共数据-长期历史数据-决策的基础-大的存储量-轻度索引-允许以多种方式浏览数据,数据集市,硅,数据集市与数据仓库有根本性的区别,数据集市与数据仓库,采用正确的方法论,评估:
为数据仓库项目确定企业的业务缺陷;,需求收集:
启动项目,搜集业务需求并且定义系统检验标准;,设计:
分析和设计数据仓库系统体系结构,确认检验测试标准;,构造:
开发、检验测试、移交数据仓库及应用系统;,部署:
投入到生产环境中并且在企业范围内保证知识转移及用户存取的便利;,回顾:
回顾项目开发过程,评估部署过程及对业务的影响。
SAS快速数据仓库方法,快速数据仓库方法的重点,必须得到企业高层领导的支持和帮助;不依赖于技术,而是一个业务过程;以业务为中心,并且由业务驱动,业务用户全程参与;按照约定好的规则实施;以迭代式方法实现,全局考虑,局部实施(Thinkbig,Startsmall);,快速数据仓库方法的重点(续),采用快速应用开发方法(RAD);允许柔性和动态收集需求;首先寻求第一个快速成功的数据集市;借助优良的项目管理方法帮助;,企业数据仓库的前景和目标数据仓库成功的因素(如果可能算出ROI)业务过程和业务驱动IT的基础架构(当前和未来)用户需求分析(数据需求、信息需求、报表和分析需求、探索需求以及信息供给需求),企业关键的评估项目,数据仓库规模和增长性宏观的企业数据仓库的物理和逻辑模型主题区域和实施优先级具体实施方案任务和责任首先实施的主题以及它的项目计划,企业关键的评估项目(续),设计阶段:
维数据模型,维数据模型(逻辑)提供更详细的数据视图(逻辑)包括一个实体列表多维事实/测量值描述实体之间的关系提供每一个实体的属性列表包括维数据模型的图形表示业务用户更容易理解能够很好地匹配目标模型,物理仓库数据模型可以利用范式模型汇总表预先合并的视图和表星型模式雪花模式星型-雪花模式多维数据模型(MDDBs)非结构化的数据/文档上述各种模型的混合使用,设计阶段:
物理模型,范式模型,MDDBs,星型模式,雪花模式,星型-雪花模式,汇总表,视图,非结构化数据,企业数据仓库范式化的E-R模型雪花及星型-雪花模式汇总表预先合并的视图部门数据仓库/数据集市汇总表预先合并的视图和表多维数据仓库(MDDBs)星型模式雪花及星型-雪花模式,设计阶段:
物理模型的适配性,不是设计用于直接用户的查询,设计用于特定的业务用户查询,为什么大多数数据仓库项目会失败?
缺乏领导支持(没有领导理解和支持)缺乏业务用户自始至终的项目参与业务单位之间缺乏协调和努力初始范围过于广泛和详细(投入过大,难于调整等)数据质量较差(遗留的和现时的系统)缺乏有效合理的实施力量(例如:
缺乏项目管理手段、任务和责任不明确等等),1、搭建面向主题的信息架构;2、综合统计报表、信息查询;3、常规数据分析(成本、财务、市场、销售、),联机分析处理,多维信息查询;4、决策支持系统、专家系统、;5、质量改善,SPC;6、关系管理(客户、供应商、访问者、)7、数据挖掘、知识发现;8、.,数据仓库相关领域的应用,1、及时获取生产管理综合信息,为决策者提供科学分析依据;2、改善管理能力,可以得到凭直觉无法得到的结论;3、对转瞬即逝的机会快速作出反应,提高竞争能力;4、既能够管理宏观信息也能够管理微观数据,可以追朔历史;,数据仓库的优点,5、建立企业内部各部门之间的合作关系。
6、提供了面向主题的信息架构,存取数据方便,业务用户也能方便的取用这些数据。
7、开拓了进一步探索和研究的广阔空间数据仓库支持进一步的探究,以发现数据所形成的趋势、构成的模式及其间的关系,这可引导用户改进现行的业务处理过程或作出正确的决策。
8、改善客户关系管理,让客户能获得更多的好处。
数据仓库的优点(续),投资回报率汇总结果,321%,制造业的ROI平均值高于其他行业,内容提要,动机与需求数据仓库技术数据仓库在宝钢的实践结束语,“从10%的人花100%的时间使用工具到100%的人花10%的时间使用工具.”,SoundViewFinancialGroupBusinessIntelligenceReport,信息用户所面临的变化,信息生产者,信息消费者,高级用户,IT人员,报表查阅者,活跃的分析人员,报表用户,企业信息环,业务用户希望得到的不仅是一个含有正确信息的报表,并且需要能进一步分析及格式化报表的基本的功能,以满足其特定的需要。
高级用户希望能直接访问数据,进行特别查询、分析及报表。
IT人员希望能为企业中的任何人、在任何地方提供对数据的访问,或向他们进行发布,同时减少他们自己堆集如山的报表和管理的麻烦。
用户所需要的是什么?
宝钢计算机系统,铁水系统,一、二期工程钢区,宝钢TCP/IP光纤主干网络(一、二期工程地域:
DECTDM)(三期工程地域:
IBMATM),IBMRS60007013-J30x3台512MB,UNISYSU6000/65x2台512MB,检化验,DECAlpha2100-4/275512MB,250转炉炼钢,DECAlpha2100-4/275x2台384MB,1420冷轧,DECAlpha2100-4/275x2台192MB,1580热轧,DECVAX4600Ax4台128MB,电炉/圆坯连铸,DECAlpha2100-4/200x2台384MB,2030冷轧,DECVAX4600x2台256MB,2050热轧,DECAlpha4100x2台1GB,高速线材,DECAlpha4100-5/300x2台512MB,1550冷轧前库,PCServerSCOUNIX,300吨转炉炼钢,IBMRS6000/J50x2台1GB,钢管分公司,HP9000K370x2台512MB,宝钢整体产销管理系统,IBM9672-R25主机,通信前置机IBMRS6000/SP,IBMSP主机,数据仓库服务器,操作系统:
OS/390数据库:
IBMDB2角色:
数据仓库的重要数据来源,IBM9672(公司产销系统),操作系统:
IBMAIX数据库:
SASDataSet角色:
数据仓库、数据分析处理、报表系统发布(DominoWebServer)的核心平台,IBMSP(数据仓库服务器),企业级数据仓库(按主题)质量(试点,完成)生产与物流市场与销售成本与财务设备能源部门级数据仓库冷轧热轧.,数据仓库建设,数据仓库应用,企业数据仓库按主题(实施过程中)信息门户(Intranet应用)生产管理信息技术质量信息企业统计信息生产区域信息(冷轧,热轧,)生产管制信息.,质量数据仓库数据环境,来源于9672上的DB2下载后的数据成为ODD(OperationalDataDefinition)形成22个主题数据表采用星状的数据模型支持不同种类的应用,质量数据仓库主题一览,Color,电炉和初轧,线材,电镀锡,电镀锌,普板,热镀锌,彩涂,电工钢,小方坯,热轧,1,2炼钢板坯,1炼钢钢锭,冷轧,1,2炼钢PONO,质量数据仓库检化验主题,初轧,线材,电镀锡,电镀和热镀锌,普板,彩涂,电炉,热轧,1,2炼钢,数据抽取,EGSnProduction,事实表维表逻辑表,数据分析应用,桌面/主机应用质量分析(热轧、冷轧、炼钢,)数据挖掘(产品质量,KIV/KOV,.)专家系统(配矿,发货支持,)市场分析(市场&销售)模型应用(合同计划及优化)客户信息查询(东方钢铁网站)客户关系管理(营销).,研发产品,实用数据挖掘工具PracticalMinerVer.2.0,宝钢股份公司企业信息门户,生产管制信息发布系统,合同订交货周期分析系统,多维数据查询,企业统计系统,KIV&KOV分析,1、实现分析型数据和操作型数据的分离;2、减轻了公司管理机的负荷;3、为建立“ENDUSERCOMPUTING”环境提供了基础;4、为分析型应用提供了创造园地,如:
CRM、BI、DM5、实现信息共享,支持固定及移动用户。
对公司信息环境的影响,从数据到信息到知识,Source:
DataWarehouseNetwork,June1997.,F一些组织已经进入知识发现阶段。
当组织成熟时,它们从数据收集走向信息管理阶段并且最终达到知识发现阶段。
Information-centric,designrequired!
构造优化的企业信息环境,内容提要,动机与需求数据仓库技术数据仓库在宝钢的实践结束语,结束语,数据仓库是CRM、BI及其它决策支持系统的基础;建立完整的“宝钢企业级数据仓库”,构筑完善的OLAP应用,开展数据挖掘工作;以数据仓库技术为基础考虑关键的业务应用:
-如质量分析及控制,摸索质量控制的规律,实现工艺参数的优化;-标准成本的科学核定,按照投入产出原则,构建成本中最主要的金属料平衡模型;-财务分析,提高竞争力;-生产过程的优化组合实事求是,数据仓库并不是万能的,对不同需求应科学分析,区分对待。
知识就是力量,了解你的组织了解你的客户了解你的供应商效率效果,Thankyou!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 技术 介绍 ppt99