欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > PPTX文档下载
    分享到微信 分享到微博 分享到QQ空间

    大数据离线计算平台介绍.pptx

    • 资源ID:9910416       资源大小:1.15MB        全文页数:20页
    • 资源格式: PPTX        下载积分:15金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据离线计算平台介绍.pptx

    1、,百度大数据离线计算平台介绍,目录,百度离线大数据平台发展历程离线计算引擎DCE揭秘统一分布式计算API-Bigflow,百度私有云,Machine Management,环境 初始化,机器故障 自动化,机器 自动流转,Container,仲裁器,State Management,MetaServer,NFS,搜索金融,糯米,AI,开放云,ADU,服 务 托 管,研 发 效 率 相 关 工 具,预 算,交 付 管 理,结 算,高精硬件,FPGA,GPU,整机柜,集群/机器管理,集群操作系统-Matrix,统一资源调度-Normandy资源位移队列/优先级调度算法,Batch,分布式计算Real

    2、TimeIterative,分布式存储OjbectTable分布式文件系统-AFSStateCenterNameSpace,产品生态,百度大数据计算平台,C+,Python,Java,Simplified Unified API-Bigflow,TMDStream,DCE(MR/DAG),MPI/Spark/ELFFlink,NormandyMatrix IDC,计算引擎,资源调度,资源管理,机器资源,API层,百度大数据离线计算平台发展历程,2004,2006,2016,2015,2015.4,2014,2014,2013,2011,2007.11,2016.6,MapReduce论文发表,

    3、Hadoop 开源,(基于Hadoop 0.15.1),百度MR单集群规模5000台,百度MR单集群13000台百度MR上线,DAG引擎上线,SQL on DAG上线,统一计算表示层发布Bigflow,DCE,&内存流式Shuffle,上线,DCE高级特性MIMO等,Bigflow对接流式引,擎 上线,百度大数据离线计算平台生态,Bigflow,DCE/Abaci(MR/DAG),Normandy,AFS/PETA,Matrix IDC,Support,Y,aR nu,n,g,统一分布式API,SQL,直接使用,一键升级 自动运维,解决用户需求自动提示失败原因,十万量级规模,每日处理海量数据,

    4、数百业务线,每日百万量级作业Wing/HiveHCE Streaming Java,目录,百度离线大数据平台发展历程离线计算引擎DCE揭秘统一分布式计算引擎API,DCE引擎演化总览,HDFS,HDFS,DAG引擎,内存流式Shuffle,Pipeline执行层,MIMO,rePartition,Broadcast,DAG引擎,HDFS,优化计算模型避免MR作业间IO读写。,HDFS,DCE-Shuffle架构,Map Memory,Map Memory,Map Memory,records,Memory Shuffler,Memory Shuffler,Memory Shuffler,blo

    5、cks,分布式(内存)文件系统,流式Shuffle降低延迟,内存Push 避免随机读,Shuffle结果持久 化避免重算,通用Service,优势:减少IO减少随机读避免重算,负载均 衡,不重不丢 异步Ack机制,Map Pipeline,Map,Wait For Flush,Map,Wait For Flush,Map,Wait For Flush,time,Map,Wait For Flush,Map,Wait For Flush,Map Wait For Flush,time,pipeline,借鉴CPU流水线 资源使用更平稳 运行时间缩短,MIMO(Multi-Input Multi-

    6、Output),Map,Broadcast session,Reduce,Reduce,Map,Reduce,Reduce,Shuffle r,Shuffle r,Normal Shuffle,Broadcast,Reduce,Shuffle r,Reduce,多种数据传输模式,多下游共用数据,MIMO,数据传输方式可以任意定制 高效、通用的DAG引擎,Runtime rePartition,Task,Task,Task,Task,Runtime rePartitiion,运行期间,动态调整Parittiion规则,Task,Task,Task,收益,收益流式shuffle:减少旧shuffl

    7、e map merge、reduce pull时间消耗内存Push:map端不落盘Shuffler内存聚合:聚合度高,减少map端seek,减 少reduce端merge路数,减少IOPipeline:大大提高中小作业map端运行速中间数据持久化:避免重算(对dag作业尤为重要),目录,百度离线大数据平台发展历程离线计算引擎DCE揭秘统一分布式计算引擎API-Bigflow,需求,学习成本:,学习使用、学习优化,迁移成本:,单机作业迁移分布式、流式与批量 迁移、新引擎迁移,维护成本:,用户作业维护、引擎演化兼容维护,Hadoop,Spark,未来某种新的计算引擎,批量计算引擎实时计算引擎,提升

    8、时效性,恢复故障数据、提升结果准确性,一套逻辑,重写再重写,一套逻辑,同时需要维护两个系统上完全不同的代码,统一分布式计算API,C+,Python,Java,Simplified Unified API-Bigflow,TMDStream,DCE(MR/DAG),MPI/Spark/ELFFlink,计算引擎,API层,统一分布式计算API-Bigflow:统一流式和批处理计算模型,自动优化用户代码针对引擎特性,进一步优化执行简单易学,高层抽象API,Bigflow特点,Bigflow示例:,从点击衍生数据()对每个地区的用户求UV,黑盒,全白盒Spark示例:,提出了分布式可嵌套数据集(NDD)模型,相比于业界同类系统抽象程度更高。对接了多种计算引擎,包括批量引擎、迭代引擎、流式引擎,方便用户切换执行引擎。完成了许多优化策略,使得Bigflow可以高效运行。我们在线上大规模验证了Bigflow的可嵌套数据集模型确实可以起到统一多平台的目标,Bigflow效果,成功对接多种批量、迭代、流式引擎比直接使用底层引擎接口性能平均高100%+用户代码平均减少60%,近百产品线数百活跃用户日处理数据量2.5P,凤巢某作业运行时间对比图,凤巢另一项目作业运行时间对比图,复合搜索某项目作业运行时间对比图,


    注意事项

    本文(大数据离线计算平台介绍.pptx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开