欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    企业大数据平台仓库架构建设思路.pdf

    • 资源ID:3431127       资源大小:1.65MB        全文页数:31页
    • 资源格式: PDF        下载积分:10金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    企业大数据平台仓库架构建设思路.pdf

    1、企业大数据平台下数仓架构 阿里云-飞天一部 介然 总体思路 模型设计 数加架构 数据治理 新环境下的数据应用特征 系统耦合多 应用深度深 数据来源多 业务变化快 稳定 透明 丰富 可信 关键词 强大的计算和存储能力;多样的编程接口和框架;丰富的数据采集通道;各种安全和管理措施;大数据平台特征 仓库架构设计原则 自下而上+自上而下;高容错性;数据质量监控贯穿整个数据流程;不怕数据冗余,利用存储换易用;总体思路 模型设计 数加架构 数据治理 维度建模 OR 实体关系建模 维度建模 实施简单 便于事实数据分析 适合业务分析报表和BI 实体关系建模 实施复杂 便于主体数据打通 适合复杂数据内容的深度挖

    2、掘 星型模型 AND 雪花模型 两种模型是并存的 星型是雪花的一种,理论上真实数据的模型都为雪花模型,实际数据仓库中两种模型会并存。中间层将雪花转变成星型 星型模型相对结构简单,在数据中间层利用数据冗余将雪花转变成星型模型有利于数据应用和减少计算资源消耗。数据分层 上下三层结构 减少层次结构的目的是为了压缩整体数据处理流程的长度,扁平化的数据处理流程有助于数据质量控制和数据运维 流式数据作为数据体系的一部分 当前的数据应用方向会越来越关注数据的时效性,越实时的数据价值度越高。基础数据层 中间层 集市层 流式数据 存 通 用 11 数据采集 把不同数据源的数据统一采集到一个平台 数据结构化 对于

    3、半结构化或非结构化的数据,进行结构化 数据清洗 清洗不符合质量要求的数据,避免脏数据参与后续数据计算 数据归类 建立数据目录,在基础层一般按照来源系统和业务域进行分类 数据规范化 规范维度标识、统一计量单位 基础数据层 12 用户 关系 商品 围绕实体打通行为 当前业务形态下,同一实体的数据可能分散在不同的系统和来源,且这些数据对同一实体的标示符可能不同。中间层最重要的目标是把同一实体不同来源数据打通起来。从行为抽象关系 从行为中抽象出来的基础关系,会是未来上层应用一个很重要的数据依赖。如兴趣、偏好、习惯等关系数据是推荐、个性化的基础生产资料。冗余是个好手段 在中间层,为了保证主题的完整性或提

    4、高数据的易用性,经常会进行适当的数据冗余。比如某一实事数据和两个主题相关但自身又没有成为独立主题,会放在两个主题库中。为了提高单数据表的复用性和减少计算关联,通常会在事实表中冗余部分维度信息。数据中间层 需求场景驱动的集市层建设,各集市之间垂直构建 集市层深度挖掘数据价值 集市层需要能够快速试错 数据集市层 中间层 用户画像 风险识别 个性化推荐。流式数据集 需求驱动 流式数据集的采集、加工和管理的成本较高,一般都会按照需求驱动的方式建设。包含事实和维度 未来保障数据统计的准确度,流式数据集同样包含事实和维度。结构更扁平 介于成本较高,流式数据体系的结构更扁平,通常不会设计中间层。应用加工 事

    5、实数据 维度数据 总体思路 模型设计 数加架构 数据治理 数据整合 数据体系 数据服务 统计服务 分析服务 标签服务 基础数据层 中间层 集市层 流式数据 结构化数据 日志数据 富文本&非结构化 同步&结构化 17 全量采集 每日采集数据库表的快照。适合数据量较小的数据集。前端库压力较小,不会影响前端应用,不会占用较大带宽,同步时间不会较长。采集方式最简单,对库表没有特殊要求,后续使用较简单。增量采集 采集数据集每日变化的数据。适合数据已经有一定规模,全量采集时间较长且对前端应用产生压力的状况。前端业务表的设计需包含时间戳字段,且任何对数据的操作都会更新时间戳。增量采集后一般会和昨日的全量数据

    6、merge一个今天的全量数据。实时采集 实时采集数据集的变化数据。比较适合数据量巨大,增量数据同步资源也消耗严重的情况。或者后续的数据应用需要用到准实时数据。实时采集对采集端系统有一定的要求。采集质量最难控制。结构化数据采集 日志结构化 日志采集到平台之前不做结构化 通过换行符分割每条日志,整条日志存储在一个数据表字段 通过UDF或MR计算框架实现日志结构化 日志原始结构越规范,解析的成本越低 并不一定需要完全平铺数据内容,结构化出重要常用字段,为了保障扩展性,利用数据冗余保存原始符合字段,如useragent字段 日志结构化数据 日志文本 parser 19 语音转文本 图片打标 图片识别。

    7、自然语言处理 视频识别 非结构化数据特征提取 数据服务化数据服务化 统计服务 偏传统的报表服务,利用大数据平台将数据加工后的结果放入关系型数据库中,由前端的报表系统或业务系统查询。分析服务 提供明细的事实数据,利用大数据平台的实时计算能力,允许操作人员自主灵活的进行各种维度的交叉组合查询。能力类似于传统cube提供的内容,但是在大数据平台下不需要预先建好cube,更灵活,更节省成本。标签服务 大数据的应用场景下,经常会对主体进行特征刻画,比如客户的消费能力、兴趣习惯、物理特征等等,这些数据会转换成KV的数据服务,提供前端应用查询。架构设计中一些实用的点架构设计中一些实用的点 巧用虚拟节点 多系

    8、统数据源同步 跨系统间数据传输 多应用间数据交互 强制分区 所有数据表都应该加上时间分区 保障每个任务都能够独立重跑不产生数据质量问题 所有数据处理过程都需要增加分区裁剪 架构设计中一些实用的点架构设计中一些实用的点 计算框架应用 日志结构化 同类数据计算过程 减少数据扫描次数 优化关键路径 每份数据的产出都有一个关键数据加工路径 优化关键路径中耗时最长的任务是最有效的保障数据产出时间的手段 对重要数据产出增加基线监控 总体思路 模型设计 数加架构 数据治理 内容建设 数据架构 模型设计 数据开发 生产运维 数据服务 管理 元数据 质量 安全 保障 组织 流程 规范 数据生命周期管理 合理的数

    9、据生命周期管理要保证温热数据占整个数据体系大部分 为了保障数据资产的完整性,对于重要的基础数据会长久保留 对于数据中间计算过程数据,在保障满足绝大部分应用访问历史数据需要的前提下,缩短数据保留周期,有助于降低存储成本 冷备已经成为历史,在大数据平台下不需要单独的冷备设备 数加平台 https:/ 一站式大数据开发、分析及应用平台 https:/ 打通数据生产全链条 计算引擎 大规模计算 实时计算 流式计算 数据加工 SQL MR Shell 图形化 数据分析 拖拽 Report Dill down 机器学习 决策树 聚类 神经网络 支持向量机 数据应用 广告推荐 定向营销 医疗 体育 金融 数据采集 PC APP WI-FI 基站 工业传感器 手环手表 领先业界3年 数加平台 Thank you!


    注意事项

    本文(企业大数据平台仓库架构建设思路.pdf)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开