大数据离线计算平台介绍.pptx

资源ID：9910416 资源大小：1.15MB 全文页数：20页
资源格式： PPTX 下载积分：15金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

大数据离线计算平台介绍.pptx

1、,百度大数据离线计算平台介绍,目录,百度离线大数据平台发展历程离线计算引擎DCE揭秘统一分布式计算API-Bigflow,百度私有云,Machine Management,环境初始化,机器故障自动化,机器自动流转,Container,仲裁器,State Management,MetaServer,NFS,搜索金融,糯米,AI,开放云,ADU,服务托管,研发效率相关工具,预算,交付管理,结算,高精硬件,FPGA,GPU,整机柜,集群/机器管理,集群操作系统-Matrix,统一资源调度-Normandy资源位移队列/优先级调度算法,Batch,分布式计算Real

2、TimeIterative,分布式存储OjbectTable分布式文件系统-AFSStateCenterNameSpace,产品生态,百度大数据计算平台,C+,Python,Java,Simplified Unified API-Bigflow,TMDStream,DCE(MR/DAG),MPI/Spark/ELFFlink,NormandyMatrix IDC,计算引擎,资源调度,资源管理,机器资源,API层,百度大数据离线计算平台发展历程,2004,2006,2016,2015,2015.4,2014,2014,2013,2011,2007.11,2016.6,MapReduce论文发表,

3、Hadoop 开源,(基于Hadoop 0.15.1),百度MR单集群规模5000台,百度MR单集群13000台百度MR上线,DAG引擎上线,SQL on DAG上线,统一计算表示层发布Bigflow,DCE,&内存流式Shuffle,上线,DCE高级特性MIMO等,Bigflow对接流式引,擎上线,百度大数据离线计算平台生态,Bigflow,DCE/Abaci(MR/DAG),Normandy,AFS/PETA,Matrix IDC,Support,Y,aR nu,n,g,统一分布式API,SQL,直接使用,一键升级自动运维,解决用户需求自动提示失败原因,十万量级规模,每日处理海量数据,

4、数百业务线，每日百万量级作业Wing/HiveHCE Streaming Java,目录,百度离线大数据平台发展历程离线计算引擎DCE揭秘统一分布式计算引擎API,DCE引擎演化总览,HDFS,HDFS,DAG引擎,内存流式Shuffle,Pipeline执行层,MIMO,rePartition,Broadcast,DAG引擎,HDFS,优化计算模型避免MR作业间IO读写。,HDFS,DCE-Shuffle架构,Map Memory,Map Memory,Map Memory,records,Memory Shuffler,Memory Shuffler,Memory Shuffler,blo

5、cks,分布式（内存）文件系统,流式Shuffle降低延迟,内存Push 避免随机读,Shuffle结果持久化避免重算,通用Service,优势：减少IO减少随机读避免重算,负载均衡,不重不丢异步Ack机制,Map Pipeline,Map,Wait For Flush,Map,Wait For Flush,Map,Wait For Flush,time,Map,Wait For Flush,Map,Wait For Flush,Map Wait For Flush,time,pipeline,借鉴CPU流水线资源使用更平稳运行时间缩短,MIMO（Multi-Input Multi-

6、Output）,Map,Broadcast session,Reduce,Reduce,Map,Reduce,Reduce,Shuffle r,Shuffle r,Normal Shuffle,Broadcast,Reduce,Shuffle r,Reduce,多种数据传输模式,多下游共用数据,MIMO,数据传输方式可以任意定制高效、通用的DAG引擎,Runtime rePartition,Task,Task,Task,Task,Runtime rePartitiion,运行期间，动态调整Parittiion规则,Task,Task,Task,收益,收益流式shuffle：减少旧shuffl

7、e map merge、reduce pull时间消耗内存Push：map端不落盘Shuffler内存聚合：聚合度高，减少map端seek，减少reduce端merge路数，减少IOPipeline：大大提高中小作业map端运行速中间数据持久化：避免重算（对dag作业尤为重要）,目录,百度离线大数据平台发展历程离线计算引擎DCE揭秘统一分布式计算引擎API-Bigflow,需求,学习成本：,学习使用、学习优化,迁移成本：,单机作业迁移分布式、流式与批量迁移、新引擎迁移,维护成本：,用户作业维护、引擎演化兼容维护,Hadoop,Spark,未来某种新的计算引擎,批量计算引擎实时计算引擎,提升

8、时效性,恢复故障数据、提升结果准确性,一套逻辑，重写再重写,一套逻辑，同时需要维护两个系统上完全不同的代码,统一分布式计算API,C+,Python,Java,Simplified Unified API-Bigflow,TMDStream,DCE(MR/DAG),MPI/Spark/ELFFlink,计算引擎,API层,统一分布式计算API-Bigflow：统一流式和批处理计算模型,自动优化用户代码针对引擎特性，进一步优化执行简单易学，高层抽象API,Bigflow特点,Bigflow示例：,从点击衍生数据()对每个地区的用户求UV,黑盒,全白盒Spark示例：,提出了分布式可嵌套数据集(NDD)模型，相比于业界同类系统抽象程度更高。对接了多种计算引擎，包括批量引擎、迭代引擎、流式引擎，方便用户切换执行引擎。完成了许多优化策略，使得Bigflow可以高效运行。我们在线上大规模验证了Bigflow的可嵌套数据集模型确实可以起到统一多平台的目标,Bigflow效果,成功对接多种批量、迭代、流式引擎比直接使用底层引擎接口性能平均高100%+用户代码平均减少60%,近百产品线数百活跃用户日处理数据量2.5P,凤巢某作业运行时间对比图,凤巢另一项目作业运行时间对比图,复合搜索某项目作业运行时间对比图,

注意事项

本文（大数据离线计算平台介绍.pptx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。