4数据挖掘概念与技术_第三章_数据仓库和OLAP技术1.pptx
- 文档编号:15122987
- 上传时间:2023-07-01
- 格式:PPTX
- 页数:67
- 大小:8.67MB
4数据挖掘概念与技术_第三章_数据仓库和OLAP技术1.pptx
《4数据挖掘概念与技术_第三章_数据仓库和OLAP技术1.pptx》由会员分享,可在线阅读,更多相关《4数据挖掘概念与技术_第三章_数据仓库和OLAP技术1.pptx(67页珍藏版)》请在冰点文库上搜索。
数据挖掘:
概念与技术第三章:
数据仓库与OLAP技术概述,2023/7/1,1,数据挖掘:
概念与技术,第三章:
数据仓库与OLAP技术概述,什么是数据仓库?
多维数据集模型数据仓库体系结构数据仓库实现从数据仓库到数据挖掘,2023/7/1,2,数据挖掘:
概念与技术,什么是数据仓库?
多种定义方式,但不严格从组织机构的操作数据库分离并独立维护的决策支持数据库支持信息处理,为统一的历史数据分析提供坚实的平台数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合,支持管理部门的决策过程。
W.H.Inmon建立数据仓库:
构建和使用数据仓库的过程,2023/7/1,3,数据挖掘:
概念与技术,数据仓库面向主题的,围绕主题组织数据,如顾客、产品、销售等。
关注决策者的数据建模与分析,而不是组织机构的日常操作和事务处理。
提供特定主题的简明视图,排除对于决策支持过程无用的数据。
2023/7/1,4,数据挖掘:
概念与技术,数据仓库集成的,由多个异构数据源集成构建关系数据库,平面文件,联机事务记录应用数据清理和数据集成技术确保命名约定,编码结构,属性度量等一致性将数据迁入数据仓库时需要进行数据转换,2023/7/1,5,数据挖掘:
概念与技术,数据仓库时变的,数据仓库中数据的时间范围比业务操作系统中长得多业务操作数据库:
当前数据数据仓库:
提供历史数据信息(如过去5-10年)数据仓库中的结构主键:
都隐式或显示包含时间元素但业务操作数据主键不一定包含时间元素,2023/7/1,6,数据挖掘:
概念与技术,数据仓库非易失的,物理存储:
与操作环境分离,虽然来自其中。
数据仓库环境中不发生数据更新操作不需要事务处理,恢复和并发控制机制只需要两种数据操作:
i数据初始化装入数据访问,2023/7/1,7,数据挖掘:
概念与技术,数据仓库与异构数据库,传统异构数据库集成:
查询驱动方法在异构数据库上建立包装程序和集成程序(中介程序)提交查询时,使用元数据字典将查询转换为异构站点上的查询。
然后将查询映射和发送到局部查询处理器,由不同站点返回的结果集成为全局查询结果集。
复杂的信息过滤和集成处理,与局部数据源的处理竞争资源数据仓库:
更新驱动方法,高性能将异构源的信息预先集成并存储在数据仓库中,供直接查询和分析不包含最近的信息支持复杂多维查询,2023/7/1,8,数据挖掘:
概念与技术,数据仓库与业务操作数据库,OLTP(on-linetransactionprocessing),联机事务处理传统关系数据库管理系统的主要任务日常操作:
购物,库存,制造,银行,工资,注册,记账等。
OLAP(on-lineanalyticalprocessing),联机分析处理数据仓库系统的主要任务数据分析和决策制定区别(OLTPvs.OLAP):
用户和系统的面向性:
顾客事务和查询(办事员,打工仔)与市场数据分析(知识工人,老板)数据内容:
当前的,细节的vs.历史的,汇总聚集的数据库设计:
E-R+业务应用vs.星形、雪花型+主题视图:
当前的,局部的vs.进化的,集成的访问模式:
更新vs.只读但查询复杂,2023/7/1,9,数据挖掘:
概念与技术,OLTPvs.OLAP,2023/7/1,10,数据挖掘:
概念与技术,为什么需要分离数据仓库?
提高两个系统的系能DBMStunedforOLTP:
accessmethods,indexing,concurrencycontrol,recoveryWarehousetunedforOLAP:
complexOLAPqueries,multidimensionalview,consolidation不同的功能和不同的数据:
数据不全:
DecisionsupportrequireshistoricaldatawhichoperationalDBsdonottypicallymaintain数据聚合:
DSrequiresconsolidation(aggregation,summarization)ofdatafromheterogeneoussources数据质量:
differentsourcestypicallyuseinconsistentdatarepresentations,codesandformatswhichhavetobereconciledNote:
越来越多的系统直接在DBMS上进行,2023/7/1,11,数据挖掘:
概念与技术,Chapter3:
DataWarehousingandOLAPTechnology:
AnOverview,Whatisadatawarehouse?
Amulti-dimensionaldatamodelDatawarehousearchitectureDatawarehouseimplementationFromdatawarehousingtodatamining,2023/7/1,12,数据挖掘:
概念与技术,由表和电子数据表到数据立方体,数据仓库和OLAP工具基于多维数据模型,以数据立方体的方式观察数据数据立方体,如销售,从多维角度对数据建模和观察维度表,如item(item_name,brand,type),ortime(day,week,month,quarter,year)事实表(如dollars_sold)包含度量值和关联维度表的码名词:
数据立方体成为方体(cuboid)存放最底层汇总的方体(n-D)成为基本方体(basiccuboid)存放最高层汇总的方体(0-D)称为顶点方体(apexcuboid),用all标记方体的格成为数据立方体(datacube),2023/7/1,13,数据挖掘:
概念与技术,3-D数据立方体,2023/7/1,14,数据挖掘:
概念与技术,4-D数据立方体,2023/7/1,15,数据挖掘:
概念与技术,数据立方体:
方体的格,time,item,time,item,location,time,item,location,supplier,2023/7/1,16,数据挖掘:
概念与技术,数据仓库的概念建模,数据仓库建模:
dimensions&measures星形模型:
Afacttableinthemiddleconnectedtoasetofdimensiontables雪花模型:
Arefinementofstarschemawheresomedimensionalhierarchyisnormalizedintoasetofsmallerdimensiontables,formingashapesimilartosnowflake事实星座型:
Multiplefacttablessharedimensiontables,viewedasacollectionofstars,thereforecalledgalaxyschemaorfactconstellation,2023/7/1,17,数据挖掘:
概念与技术,星形模型例子,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,2023/7/1,18,数据挖掘:
概念与技术,雪花模型例子,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,2023/7/1,19,数据挖掘:
概念与技术,事实星座型例子,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,ShippingFactTable,time_key,item_key,shipper_key,from_location,to_location,dollars_cost,units_shipped,2023/7/1,20,数据挖掘:
概念与技术,DMQL中的立方体定义语法,立方体定义(FactTable)definecube:
维度定义(DimensionTable)definedimensionas()SpecialCase(SharedDimensionTables)Firsttimeas“cubedefinition”definedimensionasincube,2023/7/1,21,数据挖掘:
概念与技术,DMQL定义星形模型,definecubesales_startime,item,branch,location:
dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country),2023/7/1,22,数据挖掘:
概念与技术,DMQL定义雪花模型,definecubesales_snowflaketime,item,branch,location:
dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country),2023/7/1,23,数据挖掘:
概念与技术,DMQL定义事实星座型,definecubesalestime,item,branch,location:
dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)definecubeshippingtime,item,shipper,from_location,to_location:
dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesalesdefinedimensionshipperas(shipper_key,shipper_name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales,2023/7/1,24,数据挖掘:
概念与技术,数据立方体的度量:
三类,分布式度量:
将函数用于n个聚合值得到的结果与将函数用于整个数据集(不划分)得到的结果一样E.g.,count(),sum(),min(),max()代数度量:
能够用具有M个参数的代数函数计算,而每个参数都可以用一个分布式聚合函数求得E.g.,avg(),min_N(),standard_deviation()整体度量:
描述它的子聚集所需的存储没有常数界。
E.g.,median(),mode(),rank(),2023/7/1,25,数据挖掘:
概念与技术,概念分层:
维度(location),all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M.Wind,L.Chan,.,.,.,.,.,.,all,region,office,country,Toronto,Frankfurt,city,2023/7/1,26,数据挖掘:
概念与技术,概念分层:
数值型数据(price),2023/7/1,27,数据挖掘:
概念与技术,数据仓库和分层视图,SpecificationofhierarchiesSchemahierarchydaymonthquarter;weekyearSet_groupinghierarchy1.10inexpensive,2023/7/1,28,数据挖掘:
概念与技术,多维数据,销售量是产品、月份和地域的函数,Product,Region,Month,维度:
Product,Location,Time分层概括路径,IndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay,2023/7/1,29,数据挖掘:
概念与技术,数据立方体例子,TotalannualsalesofTVinU.S.A.,2023/7/1,30,数据挖掘:
概念与技术,立方体的相应方体,all,product,date,country,product,date,product,country,date,country,product,date,country,0-D(顶点)cuboid,1-Dcuboids,2-Dcuboids,3-D(基本)cuboid,2023/7/1,31,数据挖掘:
概念与技术,浏览数据立方体,可视化OLAP能力交互操作,2023/7/1,32,数据挖掘:
概念与技术,典型的OLAP操作,上卷(drill-up,rollup):
概括数据通过沿一个维的概念分层向上攀升或者通过维归约,对数据立方进行聚集下钻(Drilldown,rolldown):
上卷的逆操作从高层概括到底层概括,从不太详细到更加详细的数据给数据添加更多细节,添加新的维到立方体来实现切片和切块(Sliceanddice):
投影和选择转轴或旋转(Pivotorrotate):
转换立方体的视角,可视化,从3D到2D平面序列其他操作钻过(drillacross):
涉及多个事实表的查询钻透(drillthrough):
钻透立方体的底层,到后端关系表(usingSQL),2023/7/1,33,数据挖掘:
概念与技术,典型的OLAP操作,2023/7/1,34,数据挖掘:
概念与技术,查询多维数据库的星形网模型,星形网模型由中心发出的射线组成每条射线代表一个维的概念分层概念分层的每个抽象级别称为一个脚印(footprint),代表诸如上卷、下钻等OLAP操作可用的粒度。
2023/7/1,35,数据挖掘:
概念与技术,星形网查询模型,ShippingMethod,AIR-EXPRESS,TRUCK,ORDER,CustomerOrders,CONTRACTS,Customer,Product,PRODUCTGROUP,PRODUCTLINE,PRODUCTITEM,SALESPERSON,DISTRICT,DIVISION,Organization,Promotion,CITY,COUNTRY,REGION,Location,DAILY,QTRLY,ANNUALY,Time,Eachcircleiscalledafootprint(脚印),2023/7/1,36,数据挖掘:
概念与技术,Chapter3:
DataWarehousingandOLAPTechnology:
AnOverview,Whatisadatawarehouse?
Amulti-dimensionaldatamodelDatawarehousearchitectureDatawarehouseimplementationFromdatawarehousingtodatamining,2023/7/1,37,数据挖掘:
概念与技术,数据仓库:
商务分析者能得到什么?
提供竞争优势通过提供相关信息,据此度量并作出调整,以帮助战胜竞争对手提高企业生产力能够快速有效地搜集准确描述组织结构的信息有利于顾客联系管理跨越了所有商务,所有部门,所有市场,提供了顾客和商品的一致视图降低费用通过一致、可靠的方式长期跟踪趋势、模式和异常来降低费用,2023/7/1,38,数据挖掘:
概念与技术,建立和使用数据仓库的技巧,商务技巧如何存储和管理数据如何构造数据提取程序,将将数据由DBMS转换到DW如何构造仓库刷新程序,合理保持DW中数据的当前性理解DW中的数据含义,理解商务需求并转换成DW中能满足的查询需求技术技巧如何由定量信息做出估价如何根据历史信息得到基于推论的事实发现模式和趋势,异常和模式漂移提出相应的管理建议管理技巧涉及众多技术人员、经销商和最终用户及时和合算的方式提交结果,2023/7/1,39,数据挖掘:
概念与技术,数据仓库设计:
商务分析框架,数据仓库设计的四个不同视角自顶向下视图选择数据仓库所需的相关信息数据源视图揭示操作数据库系统收集、存储和管理的信息数据仓库视图有事实表和维度组成商务查询视图从最终用户的角度透视数据仓库中的数据,2023/7/1,40,数据挖掘:
概念与技术,数据仓库的设计过程,自顶向下,自底向上或二者结合的方法Top-down:
由总体设计和规划开始(mature)Bottom-up:
由实验和原型开始(rapid)从软件工程的观点:
瀑布模型:
在进行下一步之前,每一步都进行结构化和系统的分析螺旋模型:
功能渐增系统的快速生成,相继版本之间的间隔很短典型数据仓库的设计过程选择待建模的商务处理,e.g.,orders,invoices,etc.选择商务处理的粒度,粒度在事实表中是原子级的选择用于每个事实表的维度选择事实表中每条记录的度量,2023/7/1,41,数据挖掘:
概念与技术,数据仓库:
三层体系结构,DataWarehouse,OLAPEngine,AnalysisQueryReportsDatamining,Monitor&Integrator,Metadata,DataSources,Front-EndTools,Serve,DataMarts,DataStorage,OLAPServer,2023/7/1,42,数据挖掘:
概念与技术,数据仓库:
三层体系结构,2023/7/1,43,数据挖掘:
概念与技术,三种数据仓库模型,企业数据仓库收集了整个组织关于主题的所有信息,跨功能的数据集市包含企业范围的一个数据子集,针对特定的用户群,限于选定的主题独立vs.依赖(直接来自数据仓库)数据集市虚拟数据仓库操作数据库视图的集合只有一些可能的数据视图可以物化,2023/7/1,44,数据挖掘:
概念与技术,数据仓库开发的推荐方法,2023/7/1,45,数据挖掘:
概念与技术,数据仓库:
后端开发工具和实用程序,数据抽取getdatafrommultiple,heterogeneous,andexternalsources数据清理detecterrorsinthedataandrectifythemwhenpossible数据转换convertdatafromlegacyorhostformattowarehouseformat加载/装入sort,summarize,consolidate,computeviews,checkintegrity,andbuildindiciesandpartitions刷新propagatetheupdatesfromthedatasourcestothewarehouse,2023/7/1,46,数据挖掘:
概念与技术,元数据存储库,元数据是定义数据仓对象的数据.包括:
数据仓库结构的描述schema,view,dimensions,hierarchies,deriveddatadefn,datamartlocationsandcontents操作元数据datalineage(historyofmigrateddataandtransformationpath),currencyofdata(active,archived,orpurged),monitoringinformation(warehouseusagestatistics,errorreports,audittrails)用于汇总的算法由操作DBMS到DW的映射关于系统性能的数据warehouseschema,viewandderiveddatadefinitions商务元数据businesstermsanddefinitions,ownershipofdata,chargingpolicies,2023/7/1,47,数据挖掘:
概念与技术,OLAP服务器类型,关系OLAP服务器(ROLAP)使用关系的或扩充的DBMS存储并管理数据仓库,而OLAP中间件支持其他功能包括DBMS后端优化,聚集导航逻辑实现,附加的工具和服务更大的可伸缩性多维OLAP服务器(MOLAP)基于稀疏数组的多维存储引擎对预计算的汇总数据快速索引混合OLAP服务器(HOLAP)(e.g.,MicrosoftSQLServer)灵活性,e.g.,低级别数据:
关系;高级别数据:
数组特殊SQL服务器(e.g.,Redbricks)专门支持在星形或雪花模型上的SQL查询,2023/7/1,48,数据挖掘:
概念与技术,ROLAP数据存储,汇总事实表:
基本事实表数据+汇聚数据,2023/7/1,49,数据挖掘:
概念与技术,Chapter3:
DataWarehousingandO
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 技术 第三 数据仓库 OLAP