欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > PPTX文档下载
    分享到微信 分享到微博 分享到QQ空间

    4数据挖掘概念与技术_第三章_数据仓库和OLAP技术1.pptx

    • 资源ID:15122987       资源大小:8.67MB        全文页数:67页
    • 资源格式: PPTX        下载积分:30金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要30金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    4数据挖掘概念与技术_第三章_数据仓库和OLAP技术1.pptx

    1、数据挖掘:概念与技术 第三章:数据仓库与OLAP技术概述,2023/7/1,1,数据挖掘:概念与技术,第三章:数据仓库与OLAP技术概述,什么是数据仓库?多维数据集模型数据仓库体系结构数据仓库实现从数据仓库到数据挖掘,2023/7/1,2,数据挖掘:概念与技术,什么是数据仓库?,多种定义方式,但不严格从组织机构的操作数据库分离并独立维护的决策支持数据库支持信息处理,为统一的历史数据分析提供坚实的平台数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合,支持管理部门的决策过程。W.H.Inmon建立数据仓库:构建和使用数据仓库的过程,2023/7/1,3,数据挖掘:概念与技术,数据仓库面向

    2、主题的,围绕主题组织数据,如顾客、产品、销售等。关注决策者的数据建模与分析,而不是组织机构的日常操作和事务处理。提供特定主题的简明视图,排除对于决策支持过程无用的数据。,2023/7/1,4,数据挖掘:概念与技术,数据仓库集成的,由多个异构数据源集成构建关系数据库,平面文件,联机事务记录应用数据清理和数据集成技术确保命名约定,编码结构,属性度量等一致性将数据迁入数据仓库时需要进行数据转换,2023/7/1,5,数据挖掘:概念与技术,数据仓库时变的,数据仓库中数据的时间范围比业务操作系统中长得多业务操作数据库:当前数据数据仓库:提供历史数据信息(如过去5-10年)数据仓库中的结构主键:都隐式或显

    3、示包含时间元素但业务操作数据主键不一定包含时间元素,2023/7/1,6,数据挖掘:概念与技术,数据仓库非易失的,物理存储:与操作环境分离,虽然来自其中。数据仓库环境中不发生数据更新操作不需要事务处理,恢复和并发控制机制只需要两种数据操作:i数据初始化装入数据访问,2023/7/1,7,数据挖掘:概念与技术,数据仓库与异构数据库,传统异构数据库集成:查询驱动方法在异构数据库上建立包装程序和集成程序(中介程序)提交查询时,使用元数据字典将查询转换为异构站点上的查询。然后将查询映射和发送到局部查询处理器,由不同站点返回的结果集成为全局查询结果集。复杂的信息过滤和集成处理,与局部数据源的处理竞争资源

    4、数据仓库:更新驱动方法,高性能将异构源的信息预先集成并存储在数据仓库中,供直接查询和分析不包含最近的信息支持复杂多维查询,2023/7/1,8,数据挖掘:概念与技术,数据仓库与业务操作数据库,OLTP(on-line transaction processing),联机事务处理传统关系数据库管理系统的主要任务日常操作:购物,库存,制造,银行,工资,注册,记账等。OLAP(on-line analytical processing),联机分析处理数据仓库系统的主要任务数据分析和决策制定区别(OLTP vs.OLAP):用户和系统的面向性:顾客事务和查询(办事员,打工仔)与市场数据分析(知识工人,

    5、老板)数据内容:当前的,细节的 vs.历史的,汇总聚集的数据库设计:E-R+业务应用 vs.星形、雪花型+主题视图:当前的,局部的 vs.进化的,集成的访问模式:更新 vs.只读 但查询复杂,2023/7/1,9,数据挖掘:概念与技术,OLTP vs.OLAP,2023/7/1,10,数据挖掘:概念与技术,为什么需要分离数据仓库?,提高两个系统的系能DBMS tuned for OLTP:access methods,indexing,concurrency control,recoveryWarehousetuned for OLAP:complex OLAP queries,multidi

    6、mensional view,consolidation不同的功能和不同的数据:数据不全:Decision support requires historical data which operational DBs do not typically maintain数据聚合:DS requires consolidation(aggregation,summarization)of data from heterogeneous sources数据质量:different sources typically use inconsistent data representations,code

    7、s and formats which have to be reconciledNote:越来越多的系统直接在DBMS上进行,2023/7/1,11,数据挖掘:概念与技术,Chapter 3:Data Warehousing and OLAP Technology:An Overview,What is a data warehouse?A multi-dimensional data modelData warehouse architectureData warehouse implementationFrom data warehousing to data mining,2023/7

    8、/1,12,数据挖掘:概念与技术,由表和电子数据表到数据立方体,数据仓库和OLAP工具基于多维数据模型,以数据立方体的方式观察数据数据立方体,如销售,从多维角度对数据建模和观察维度表,如 item(item_name,brand,type),or time(day,week,month,quarter,year)事实表(如 dollars_sold)包含度量值和关联维度表的码名词:数据立方体成为方体(cuboid)存放最底层汇总的方体(n-D)成为基本方体(basic cuboid)存放最高层汇总的方体(0-D)称为顶点方体(apex cuboid),用all标记 方体的格成为数据立方体(da

    9、ta cube),2023/7/1,13,数据挖掘:概念与技术,3-D数据立方体,2023/7/1,14,数据挖掘:概念与技术,4-D数据立方体,2023/7/1,15,数据挖掘:概念与技术,数据立方体:方体的格,time,item,time,item,location,time,item,location,supplier,2023/7/1,16,数据挖掘:概念与技术,数据仓库的概念建模,数据仓库建模:dimensions&measures星形模型:A fact table in the middle connected to a set of dimension tables 雪花模型:A

    10、 refinement of star schema where some dimensional hierarchy is normalized into a set of smaller dimension tables,forming a shape similar to snowflake事实星座型:Multiple fact tables share dimension tables,viewed as a collection of stars,therefore called galaxy schema or fact constellation,2023/7/1,17,数据挖掘

    11、:概念与技术,星形模型例子,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,2023/7/1,18,数据挖掘:概念与技术,雪花模型例子,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,2023/7/1,19,数据挖掘:概念与技术,事实星座型例子,Sales Fact Table,time

    12、_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,Shipping Fact Table,time_key,item_key,shipper_key,from_location,to_location,dollars_cost,units_shipped,2023/7/1,20,数据挖掘:概念与技术,DMQL 中的立方体定义语法,立方体定义(Fact Table)define cube:维度定义(Dimension Table)define dimension as()Special

    13、 Case(Shared Dimension Tables)First time as“cube definition”define dimension as in cube,2023/7/1,21,数据挖掘:概念与技术,DMQL定义星形模型,define cube sales_star time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as(time_key,day,day_o

    14、f_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier_type)define dimension branch as(branch_key,branch_name,branch_type)define dimension location as(location_key,street,city,province_or_state,country),2023/7/1,22,数据挖掘:概念与技术,DMQL定义雪花模型,define cube sales_snowflake

    15、time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as(time_key,day,day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier(supplier_key,supplier_type)define dimension branch as(b

    16、ranch_key,branch_name,branch_type)define dimension location as(location_key,street,city(city_key,province_or_state,country),2023/7/1,23,数据挖掘:概念与技术,DMQL定义事实星座型,define cube sales time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dime

    17、nsion time as(time_key,day,day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier_type)define dimension branch as(branch_key,branch_name,branch_type)define dimension location as(location_key,street,city,province_or_state,country)define cube shipping time,item,

    18、shipper,from_location,to_location:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)define dimension time as time in cube salesdefine dimension item as item in cube salesdefine dimension shipper as(shipper_key,shipper_name,location as location in cube sales,shipper_type)define dimension from_loc

    19、ation as location in cube salesdefine dimension to_location as location in cube sales,2023/7/1,24,数据挖掘:概念与技术,数据立方体的度量:三类,分布式度量:将函数用于n个聚合值得到的结果与将函数用于整个数据集(不划分)得到的结果一样E.g.,count(),sum(),min(),max()代数度量:能够用具有M个参数的代数函数计算,而每个参数都可以用一个分布式聚合函数求得E.g.,avg(),min_N(),standard_deviation()整体度量:描述它的子聚集所需的存储没有常数界。E

    20、.g.,median(),mode(),rank(),2023/7/1,25,数据挖掘:概念与技术,概念分层:维度(location),all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M.Wind,L.Chan,.,.,.,.,.,.,all,region,office,country,Toronto,Frankfurt,city,2023/7/1,26,数据挖掘:概念与技术,概念分层:数值型数据(price),2023/7/1,27,数据挖掘:概念与技术,数据仓库和分层视图,Specification of hie

    21、rarchiesSchema hierarchyday month quarter;week yearSet_grouping hierarchy1.10 inexpensive,2023/7/1,28,数据挖掘:概念与技术,多维数据,销售量是产品、月份和地域的函数,Product,Region,Month,维度:Product,Location,Time分层概括路径,Industry Region YearCategory Country QuarterProduct City Month Week Office Day,2023/7/1,29,数据挖掘:概念与技术,数据立方体例子,Tota

    22、l annual salesof TV in U.S.A.,2023/7/1,30,数据挖掘:概念与技术,立方体的相应方体,all,product,date,country,product,date,product,country,date,country,product,date,country,0-D(顶点)cuboid,1-D cuboids,2-D cuboids,3-D(基本)cuboid,2023/7/1,31,数据挖掘:概念与技术,浏览数据立方体,可视化OLAP 能力交互操作,2023/7/1,32,数据挖掘:概念与技术,典型的 OLAP 操作,上卷(drill-up,roll

    23、up):概括数据通过沿一个维的概念分层向上攀升或者通过维归约,对数据立方进行聚集下钻(Drill down,roll down):上卷的逆操作从高层概括到底层概括,从不太详细到更加详细的数据给数据添加更多细节,添加新的维到立方体来实现切片和切块(Slice and dice):投影和选择 转轴或旋转(Pivot or rotate):转换立方体的视角,可视化,从3D 到 2D 平面序列其他操作钻过(drill across):涉及多个事实表的查询钻透(drill through):钻透立方体的底层,到后端关系表(using SQL),2023/7/1,33,数据挖掘:概念与技术,典型的OLAP

    24、操作,2023/7/1,34,数据挖掘:概念与技术,查询多维数据库的星形网模型,星形网模型由中心发出的射线组成每条射线代表一个维的概念分层概念分层的每个抽象级别称为一个脚印(footprint),代表诸如上卷、下钻等OLAP操作可用的粒度。,2023/7/1,35,数据挖掘:概念与技术,星形网查询模型,Shipping Method,AIR-EXPRESS,TRUCK,ORDER,Customer Orders,CONTRACTS,Customer,Product,PRODUCT GROUP,PRODUCT LINE,PRODUCT ITEM,SALES PERSON,DISTRICT,DIV

    25、ISION,Organization,Promotion,CITY,COUNTRY,REGION,Location,DAILY,QTRLY,ANNUALY,Time,Each circle is called a footprint(脚印),2023/7/1,36,数据挖掘:概念与技术,Chapter 3:Data Warehousing and OLAP Technology:An Overview,What is a data warehouse?A multi-dimensional data modelData warehouse architectureData warehouse

    26、implementationFrom data warehousing to data mining,2023/7/1,37,数据挖掘:概念与技术,数据仓库:商务分析者能得到什么?,提供竞争优势通过提供相关信息,据此度量并作出调整,以帮助战胜竞争对手提高企业生产力能够快速有效地搜集准确描述组织结构的信息有利于顾客联系管理跨越了所有商务,所有部门,所有市场,提供了顾客和商品的一致视图降低费用通过一致、可靠的方式长期跟踪趋势、模式和异常来降低费用,2023/7/1,38,数据挖掘:概念与技术,建立和使用数据仓库的技巧,商务技巧如何存储和管理数据如何构造数据提取程序,将将数据由DBMS转换到DW如何

    27、构造仓库刷新程序,合理保持DW中数据的当前性理解DW中的数据含义,理解商务需求并转换成DW中能满足的查询需求技术技巧如何由定量信息做出估价如何根据历史信息得到基于推论的事实发现模式和趋势,异常和模式漂移提出相应的管理建议管理技巧涉及众多技术人员、经销商和最终用户及时和合算的方式提交结果,2023/7/1,39,数据挖掘:概念与技术,数据仓库设计:商务分析框架,数据仓库设计的四个不同视角 自顶向下视图选择数据仓库所需的相关信息数据源视图揭示操作数据库系统收集、存储和管理的信息数据仓库视图有事实表和维度组成商务查询视图 从最终用户的角度透视数据仓库中的数据,2023/7/1,40,数据挖掘:概念与

    28、技术,数据仓库的设计过程,自顶向下,自底向上或二者结合的方法Top-down:由总体设计和规划开始(mature)Bottom-up:由实验和原型开始(rapid)从软件工程的观点:瀑布模型:在进行下一步之前,每一步都进行结构化和系统的分析螺旋模型:功能渐增系统的快速生成,相继版本之间的间隔很短典型数据仓库的设计过程选择待建模的商务处理,e.g.,orders,invoices,etc.选择商务处理的粒度,粒度在事实表中是原子级的选择用于每个事实表的维度选择事实表中每条记录的度量,2023/7/1,41,数据挖掘:概念与技术,数据仓库:三层体系结构,DataWarehouse,OLAP Eng

    29、ine,AnalysisQueryReportsData mining,Monitor&Integrator,Metadata,Data Sources,Front-End Tools,Serve,Data Marts,Data Storage,OLAP Server,2023/7/1,42,数据挖掘:概念与技术,数据仓库:三层体系结构,2023/7/1,43,数据挖掘:概念与技术,三种数据仓库模型,企业数据仓库收集了整个组织关于主题的所有信息,跨功能的数据集市包含企业范围的一个数据子集,针对特定的用户群,限于选定的主题独立 vs.依赖(直接来自数据仓库)数据集市虚拟数据仓库操作数据库视图的集

    30、合只有一些可能的数据视图可以物化,2023/7/1,44,数据挖掘:概念与技术,数据仓库开发的推荐方法,2023/7/1,45,数据挖掘:概念与技术,数据仓库:后端开发工具和实用程序,数据抽取get data from multiple,heterogeneous,and external sources数据清理detect errors in the data and rectify them when possible数据转换convert data from legacy or host format to warehouse format加载/装入sort,summarize,cons

    31、olidate,compute views,check integrity,and build indicies and partitions刷新propagate the updates from the data sources to the warehouse,2023/7/1,46,数据挖掘:概念与技术,元数据存储库,元数据是定义数据仓对象的数据.包括:数据仓库结构的描述schema,view,dimensions,hierarchies,derived data defn,data mart locations and contents操作元数据data lineage(histor

    32、y of migrated data and transformation path),currency of data(active,archived,or purged),monitoring information(warehouse usage statistics,error reports,audit trails)用于汇总的算法由操作DBMS到DW的映射关于系统性能的数据warehouse schema,view and derived data definitions商务元数据business terms and definitions,ownership of data,ch

    33、arging policies,2023/7/1,47,数据挖掘:概念与技术,OLAP 服务器类型,关系OLAP服务器(ROLAP)使用关系的或扩充的DBMS存储并管理数据仓库,而OLAP中间件支持其他功能包括DBMS后端优化,聚集导航逻辑实现,附加的工具和服务更大的可伸缩性多维OLAP服务器(MOLAP)基于稀疏数组的多维存储引擎对预计算的汇总数据快速索引混合OLAP服务器(HOLAP)(e.g.,Microsoft SQLServer)灵活性,e.g.,低级别数据:关系;高级别数据:数组特殊 SQL服务器(e.g.,Redbricks)专门支持在星形或雪花模型上的SQL查询,2023/7/1,48,数据挖掘:概念与技术,ROLAP数据存储,汇总事实表:基本事实表数据+汇聚数据,2023/7/1,49,数据挖掘:概念与技术,Chapter 3:Data Warehousing and O


    注意事项

    本文(4数据挖掘概念与技术_第三章_数据仓库和OLAP技术1.pptx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开