欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > PPTX文档下载
    分享到微信 分享到微博 分享到QQ空间

    数据仓库介绍.pptx

    • 资源ID:15126415       资源大小:338.51KB        全文页数:30页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据仓库介绍.pptx

    1、Data Warehouse,数据仓库,概念、设计及应用,报告人:曹顺良 2001年11月12日,提纲,1.为什么要建立数据仓库2.数据仓库的概念及特性3.数据仓库的结构4.数据仓库的设计5.数据仓库的开发过程6.数据仓库的典型应用,事务处理环境不适宜DSS应用的原因,事务处理和分析处理的性能特性不同 操作型处理对数据的存取操作频率高而每次操作处理的时间短;在分析处理环境中,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。数据集成问题数据动态集成问题历史数据问题 数据的综合问题,抽取程序,用抽取程序能将数据从高性能联机事务处理方式中转移出来,在需要总体分析数据时就与联机事务处理

    2、性能不发生冲突。用抽取程序能将数据从联机事务处理范围内移出时,数据的控制方式就发生了转变。,蜘蛛网问题,数据缺乏可信性数据无时基数据算法上的差异抽取的多层次外部数据问题无起始的公共数据源生产率低根据全部数据生成企业报表定位数据需要浏览大量文件抽取程序很多,并且每个都是定制的,不得不克服很多技术上的障碍。数据转化为信息的不可行性数据没有集成化缺乏将数据转化为信息所需的历史数据,体系结构设计环境的层次,数据操作层只保存原始数据并且服务于高性能事务处理领域;数据仓库层存储不更新的原始数据,此外一些导出数据也在此存在;数据的部门层几乎只存放导出数据;在数据个体层中完成大多数启发式分析,操作层,原子/数

    3、据仓库层,部门层,个体层,数据仓库的概念,数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。William H.Inmon 与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。,数据仓库的特性,面向主题典型的主题领域:客户;产品;交易;帐目集成的数据提取、净化、转换、装载非易失的数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新随时间的变化性数据仓库中的时间期限要远远长于操作型系统中的时间期限(510年);数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库的键码结构总是包含某时间元素。

    4、,数据仓库的结构,早期细节级,当前细节级,轻度综合级数据集市,高度综合级,元数据,操作型转换,数据仓库设计中的几个重要概念,ETLETL(Extract/Transformation/Load)用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。元数据关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。粒度数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。分割结构相同的数据被分成多个数据物

    5、理单元。任何给定的数据单元属于且仅属于一个分割。,典型的元数据包括:,数据仓库表的结构数据仓库表的属性数据仓库的源数据(记录系统)从记录系统到数据仓库的映射数据模型的规格说明抽取日志访问数据的公用例行程序,数据仓库设计中的几个重要概念(续),Data Mart数据集市-小型的,面向部门或工作组级数据仓库。Operation Data Store操作数据存储 ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject-Oriented)、集成的、可变的、当前或接近当前的。data model数据模型-(1

    6、)逻辑数据结构,包括由DBMS为有效进行数据库处理提供的操作和约束;(2)用于表示数据的系统(例如,ERD或关系型模型)。artifact 人工关系-在DSS环境中用于表示参照完整性的一种设计技术。,企业数据模型到数据仓库数据模型的转换,除去纯粹用于操作型环境的数据在企业键码结构中增加时间元素增加导出数据创建人工关系,数据模型的规范化/反规范化,为了减少程序在表中的跳转、节省I/O,需将多个相关的表合并;引入冗余数据;当访问概率有很大悬殊时,要对数据做进一步分离;在物理数据库的设计中引入导出数据可以减少I/O;建立所谓的“创造的”索引或创造的简要记录(如卷中的前十名顾客是),从操作型的现存系统

    7、到数据仓库中数据转换工作的难点,现有系统缺乏数据集成,跨越不同应用的数据集成性很差存取现存系统的效率,扫描已有文件成了数据仓库体系结构设计者主要面对的问题时基的变化数据要浓缩,概念:数据周期、简要记录,数据周期:是指从操作型数据发生改变起,到这个变化反映到数据仓库中所用的时间。从操作型环境知道数据的改变到这个变化反映到数据仓库中至少应该经历24小时。简要记录:或聚集记录,是把不同操作型数据的详细信息聚集在一个记录中而形成的记录。好处:减少数据量;为用户的访问和分析提供了一种紧凑的方便的数据组织形式;缺点:信息的详细程度将会降低。,数据仓库的建模,数据模型所有的实体都是平等关系。仅仅从数据模型的

    8、角度来着手设计数据仓库会产生一种“平面”效应。星型连接事实表:位于星型连接的中央,它是被大量载入数据的实体。维表:周围的其它实体。在很多情况下:文本数据与数值数据是分离开的。通过数据预连接和建立有选择的数据冗余,设计者为访问和分析过程大大简化了数据。星型连接应用于设计数据仓库中很大的实体,而数据模型则应用于数据仓库中较小的实体。,数据建模的十条戒律,必须回答紧迫的问题;必须有正确的事实表;将有正确的维表,描述必须按最终用户的业务术语表达;必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程;对于事实表,应该有正确的“粒度”;根据需要存储正确长度的公司历史数据;以一种对于公司有意义的方式来集

    9、成所有必要的数据;创建必要的总结表;创建必要的索引;能够加载数据仓库数据库并使它以一种适宜的方式可用。,数据集市,外部数据,用自顶向下的方法构建数据仓库,数据集市,建造企业数据仓库建设中心数据模型一次性的完成数据的重构工作最小化数据冗余度和不一致性存储详细的历史数据从企业数据仓库中建造数据集市得到大部分的集成数据直接依赖于数据仓库的可用性,操作数据,问题投资效益的时间?建设中心数据模型的必要性和可能性?初始费用?,企业数据仓库,用自底向上的方法构建数据仓库,数据集市,建立部门数据集市限制在一个主题区域快速投资收益 区域自治 设计的可伸缩性强对相关部门的应用容易复制 对每个数据集市需要数据重构存

    10、在一定的冗余及不一直性逐步扩展到企业数据仓库(EDW)把建造EDW作为一个长期的目标,存在的问题:数据集市的数据都是可用的吗?能生成数据模型吗?如何解决不一致性?,操作数据(局部),操作数据(局部),数据集市,企业数据仓库,数据仓库的开发过程,建立或获得企业的数据模型;定义记录系统;设计数据仓库并按主题领域进行组织;设计和建立操作型环境中的记录系统和数据仓库之间的接口,这些接口能保证数据仓库的载入工作能有序的进行;开始载入第一个主题领域,进入载入和反馈过程,数据仓库中的数据在此过程中也在不断地改变。,数据模型的内容,标识主要主题领域。各个主要主题之间的各种关系。清晰地定义模型的边界。把原始数据

    11、和导出数据分离。每个主题领域需要标识键码属性属性分组之间的关系多重出现的数据数据的类型,表达数据模型的最好数据,最实时最准确最完备与外部数据源最近最具结构兼容性定义记录系统就是找出现存系统所具有的最好的数据,将数据模型变为数据仓库要做的主要工作,如果原先没有时间元素的话,时间元素必须加入到键码结构中必须清除所有的纯操作型数据需要将参照完整性关系转换成“人工关系”将经常需要用到的到处数据假如到设计中对数据的结构进行调整增加数据阵列增加数据冗余在合适的情况下进一步分离数据在合适的时候合并数据表需要做数据的稳定性分析,在接口中需完成的工作,数据抽取对来自操作型、面向应用型环境的数据的集成数据时基的变

    12、更数据压缩对现存系统环境的有效扫描,数据仓库开发成功的关键,关键:是数据体系结构设计者和DSS分析者之间的反馈循环。有几点观察结果对数据仓库环境的成功建立是至关重要的问题:DSS分析人员一定要严格遵循“给我我所要的东西,然后我能告诉你我真正需要的东西”的工作模式;反馈循环的周期越短,越有可能成功;需要调整的数据量越大,反馈循环所需要的周期就越长,数据仓库的应用,在证券业的应用:可处理客户分析、帐户分析、证券交易数据分析、非资金交易分析等多个业界关心的主题,为客户提供针对其个人习惯、投资组合的投资建议,从而真正作到对客户的贴心服务。在银行领域的应用:防范银行的经营风险、实现科学管理以及进行决策.

    13、在税务领域的应用:可以解决三个方面的问题:一是查出应税未报者和瞒税漏税者,并对其进行跟踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税务征稽策略;三是对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。在保险业的应用:满足保险行业日益增长的各种查询、统计、报表以及分析的需求,提高防范和化解经营风险的能力,有效利用这些数据来实现经营目标,预测保险业的发展趋势,甚至利用这些数据来设计保险企业的发展宏图,在激烈的竞争中赢得先机.在客户服务及营销方面的应用:CRM在保健领域的应用:揭示出如何以较低费用获取较高质量的治疗策略趋势和模式.,Have Any Questions?,CSLIANG8848.NET,


    注意事项

    本文(数据仓库介绍.pptx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开