欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    云数据采集中心及大数据计算平台建设方案.docx

    • 资源ID:9399428       资源大小:1.55MB        全文页数:74页
    • 资源格式: DOCX        下载积分:1金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要1金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    云数据采集中心及大数据计算平台建设方案.docx

    1、云数据采集中心及大数据计算平台建设方案云数据采集中心及大数据计算平台建设方案1 引言1.1 项目背景根据 CC 智能战略的规划:做强终端、云平台建设、大数据商业模式,CC 正 迈向大数据时代,当前正面向所有智能终端提供优质的服务,同时通过终端传感 器或数据采集服务能够获取海量的数据,并且数据量会以 TB 级剧增。因此 CC 迫切需要建设一套高性能、高安全性、高可靠性,可扩展性的云数据采集中心, 并搭建一个数据中心支撑平台,以满足当今高速增长的数据存储、管理、计算的 需求,同时便于将来拓展和进一步的改造。目前 CC 数据中心是主要基于 CC 黑电、白电、浏览器等产品终端传感器采 集的海量文本、图

    2、片数据以及用户数据,为 CC 后续其他数据分析挖掘项目提供 数据支撑的信息平台。对应方针终端内容服务、云服务支撑与数据挖掘、个 性化数据价值探索。建立统一有效的云数据采集中心有利于 CC 大数据的管理,符合 CC 新的发 展战略,CC 黑电和白电产品终端传感器采集的数据有用户行为的文本数据(log)、 台标等图片数据以及自建的影视知识库的结构化数据、电商平台的海量镜像数据。 当 CC 的用户量和采集的数据量与日俱增的时候,数据中心必须能通过添加更多 服务节点来扩展性能和负载能力,保证高可扩展性和高可用性从而满足 CC 业务 发展的需要。1.2 项目目标 搭建分布式存储平台(能够存储海量非结构化

    3、数据和结构化数据)、分 布式并行计算平台等等,满足海量数据的采集、存储、计算的需要,平台必须具备高可用性,高扩展性,高可靠性要求。 为 CC 后面的产品(收视率统计,智能推荐系统,拍立购,开放平台等等) 的应用和实施打下坚实的基础,为集团 CC 的大数据提供运营支撑。 云中心初期建立至少保证可以正常运营 12 年,硬件选型,软件开始要 考虑到今后大规模扩容的要求。 技术平台要有能力支持数据量最高 1000W 终端数量的数据存储、数据计 算、信息推荐等的能力。1.3 建设原则基于本项目的建设要求,本项目将遵循以下建设原则: 前瞻性和高标准 整个项目要按照企业对大数据应用的需要的高要求和高标准建设

    4、,参考 行业标杆应用,建立满足需求,面向未来的目标,整个项目具有一定前 瞻性。 经济性和实用性 整个项目以现有需求为基础,充分考虑未来发展的需要来确定系统的架 构,既要降低系统的初期投入,又能满足服务对象的需求,同时系统设 计应充分考虑对已有投资的保护,对已建立的数据中心、基础平台、应 用软件应提供完备的整合方案。 先进性和成熟性 为了确保项目具有较长的生命周期,应充分考虑到管理创新、技术发展 需要,按照先进的建设理念,选择先进的技术架构和成熟技术,满足业务需求。 高性能和安全性 规范地进行系统建设和开发,提供合理且经济有效的应急方案,确保系 统的稳定,向各类服务对象提供可靠的服务。具有安全性

    5、,在系统遭到 攻击或崩溃时能快速恢复,确保重要数据的机密性和完整性。1.4 参考规范 GB 9361-88 计算站场地安全要求 GB 50173-93 电子计算机机房设计规范 GB 2887-89 计算站场地技术条件 GB 50174-2008 电子信息系统机房设计规范 GB 50462-2008 电子信息系统机房施工及验收规范 GB 50311-2007 综合布线工程设计规范 GB 50312-2007 综合布线系统工程验收规范 GB 50395-2007 视频安防监控系统设计规范 GB 50263-2007 气体灭火系统施工及验收规范 GB 50394-2007 入侵报警系统工程设计规范

    6、GB/T 20269-2006 信息安全技术信息系统安全管理要求 GB/T 20984-2007 信息安全技术信息安全风险评估规范 GB/T 22239-2008 信息安全技术信息系统安全等级保护基本要求 GB/T 22240-2008 信息安全技术信息系统安全等级保护定级指南 GA/T 388-2002B 计算机信息系统安全等级保护管理要求 GB/T 8567 -1988 计算机软件产品开发文件编制指 GB/T 11457-1995 软件工程术语 GB/T 11457-2006 信息技术 软件工程术语 GB/T 16260.1-2006 软件工程 产品质量 第 1 部分:质量模型 GB/T

    7、16260.2-2006 软件工程 产品质量 第 2 部分:外部度量 GB/T 16260.3-2006 软件工程 产品质量 第 3 部分:内部度量 GB/T 16260.4-2006 软件工程 产品质量 第 4 部分:使用质量的度量 GB/T 14394-2008 计算机软件可靠性和可维护性管理 GB/T 17544-1998 信息技术 软件包 质量要求和测试 GB/T 18221-2000 信息技术 程序设计语言、环境与系统软件借口 独立 于语言的数据类型 GB/T 18491.1-2001 信息技术 软件测量 功能规模测量 第 1 部分:概念 定义 GB/T 18492-2001 信息技

    8、术 系统及软件完整性级别 GB/Z 18493-2001 信息技术 软件生存周期过程指南 GB/T 20157-2006 信息技术 软件维护 GB/T 20272-2006 信息安全技术 操作系统安全技术要求 GB/T 20008-2005 信息安全技术 操作系统安全评估准则 GB/T 20009-2005 信息安全技术 数据库管理系统安全评估准则 GB/T 20918-2007 信息技术 软件生存周期过程 风险管理 GB/T 8566-2007 信息技术 软件生存周期过程 SJ/T 10367-1993 计算机过程控制软件开发规程 SJ/T 11234-2001 软件过程能力评估模型SDO

    9、(Service Data Object) for Java Specification V2.1SCA (Service Component Architecture)Java EE Integration Specification V1.00Java 2 Platform, Enterprise EditionCapability Maturity Model Integration (CMMISM), Version 1.1Extensible Markup Language (XML) 1.0 (Fifth Edition)Web Services Business Process

    10、Execution Language v2.01.5 名词解释S2DFS:简单存储分布式文件系统(Simple Storage Distributed File System)D2B:分布式数据库(Distributed Database)JSS:作业调度服务(Job Scheduler Service)DCS:数据计算服务(Data Computer Service)MPS:消息处理服务(Message Process Service)SDS:流数据处理服务(Stream Data Service)DMQ:分布式消息队列(Distributed Message Queue)JGS:作业生成服

    11、务(Job Generation Service)ACS:自动清理服务进程(Automatic Cleaning Services)HTTP:超文本传输协定(HyperText Transfer Protocol)SMB:服务器信息块协议(Server Message Block)2 云数据采集中心2.1 需求概述根据 CC 的阶段规划,第一期云数据采集中心的建立至少满足 1 至 2 年内的 数据存储和计算规模,需要满足 200 万台各种智能终端的数据存储和计算规模。今后整个云数据采集中心的技术平台和架构需要轻松扩展到支持 1000 万台规模 的各种智能终端的数据存储和计算规模。以下的数据为预

    12、估数据(基于小范围的实验数据为依据):数据类别文件(记录)大小 1文件(记录)数量 1文件(记录)大小 2文件(记录)数量 2台标数据(原始数据,1 天周期)约 16KB/台/天(由 200Kb/台/天而得)约 36 个文件/台/天约 32GB/200 万台/天约 7200 万个/200 万台/天行为数据(原始数据,1 天周期)约 60KB/台/天(记录)(由 400Kb/台/天而得,加上了 10KB 的索引记录) 约 50KB/台/天(文件)(由 400Kb/台/天而得)(平均估值)约 100 条记录/台/天(记录)约 100 个文件/台/天(文件)(平均估值)约 120GB/200 万台/

    13、天(记录)约 100GB/200 万台/天(文件)(平均估值)约 2 亿条/200 万台/天(记录)约 2 亿个/200 万台/天(文件)(平均估值)行为数据(原始数据,永久保存,压缩处理)约 60KB/台/天(记录)(由 400Kb/台/天而得,加上了 10KB 的索引记录) 约 50KB/台/天(文件)(由 400Kb/台/天而得)(平均估值)约 100 条记录/台/天约 100 个文件/台/天(平均估值)约 45TB/200 万台/1 年(文件, 加上元数据描述文件)(平均估值) 注:记录的大小约为 10GB约 35 万条/200 万台/1 年(记录)约 35 万个/200 万台/1 年

    14、(文件)(平均估值) 注:128MB/1 个文件行为分析/收视率统计/推荐/电商索引等记 录约 10KB/1 条(记录)(平均估值)约 10TB/1 年(记录)(平均估值)约 10-15 亿条记录/1 年(记录)(平均估值)至少 6 大电商的镜像数据约 30KB/1 个(文件)(平均估值)约 10 亿个/1 年(文件)(平均估值)约 30TB/1 年(文件)(平均估值)以 1 年为计算周期(数据整合、压缩、清洗后),初步预估: 1、 数据记录:约为 10-15 亿条;2、 文件个数:约为 10-12 亿个;3、 记录总大小:约为 10TB;(双份副本:需要约 20TB 存储空间)4、 文件总大

    15、小:约为 75TB;(双份副本:需要约 150TB 存储空间)5、 总容量大小:约为 85TB;(双份副本:需要约 170TB 存储空间)为了数据的高可靠性,为每份(文件/记录)建立镜像副本,所以总容量初 步可以规划约为 170TB。2.2 总体设计整个云数据采集中心分为四部分:硬件资源层、软件平台层、软件应用层、 智能终端层。硬件资源层主要指实体硬件设备,包括用来存储数据的光纤阵列柜和存储服 务器,用来作统计、分析以及搜索用的计算服务器,用来部署分布式消息(DMQ)/WEB/APP 软件的 WEB 及消息服务器,用来部署用 PostgreSQL 关系数据库软 件的应用数据库服务器,用来部署作

    16、业调度服务进程(JSS)的作业调度服务器。 作为数据通信用的全千兆三层交换机等等。其中光纤阵列柜主要用来存储统计分 析后的粗颗粒度数据。存储服务器用来部署分布式文件系统和分布式数据库,同 时存储非结构化和结构化(台标图片,电商图片等等)和结构化数据(行为数据, 索引数据,log 数据,清理后的细颗粒度数据等等)。计算服务器主要用来完成数 据的清理、统计、搜索等计算任务。为了节省成本和减少通信代价,建议存储服务器和计算服务器合二为一,所以该服务器同时具有计算和存储数据的功能,前 期也可以考虑把作业调度服务进程(JSS)进程部署在存储/计算服务器上。由于 云数据采集中心需要面对多种宽带用户(电信、

    17、移动、联通),所以,数据中心 的对外的网络需要直连上电信、移动、联通三家公司的网络,保证以上三家公司 间的通信性能高速和可靠。软件平台层是云数据采集中心的核心支撑层,也是我们这次方案设计和实施 的主体部分,在核心技术章节会对“分布式文件系统(S2DFS)”、“分布式数 据库(D2B)”、“分布式消息服务(DMQ)”“作业调度服务进程(JSS)、数 据计算服务进程(DCS)”主要部分加以详细的描述。软件平台层的所有服务器都统一部署的 64 位操作系统 CentOS 6.5(也可以选择 RHEL 6.5 x64);其核心软 件或者进程有:分布式文件系统(S2DFS)、分布式数据库(D2B)、作业调

    18、度服 务进程(JSS)、数据计算服务进程(DCS)、作业生成服务进程(JGS)、消息处 理服务进程(MPS)、流数据处理进程(SDS)等等。WEB 及应用服务器软件 Apache&Tomcat,消息队列软件分布式消息(DMQ)。还要实现整个云数据采集 中心的资源管理及监控管理系统。软件应用层是云数据采集中心的功能实现及 UI 表达层,功能实现需要基于 软件平台层的支撑,后期设计和实施的主体。该层的主要功能应用有:数据采集 应用、收视率统计应用、智能推荐应用、拍立购应用,云数据采集中心的资源监 控及调度,通过提供标准 API,在 CC 的云平台上集成第三方 APP 应用,使我们 的云平台成为一个

    19、开放的平台,围绕 CC 的各种智能终端或者第三方的终端,都 纳入到平台上来,建立一个完备而丰富的运营生态圈,使 CC 在互联网时代的竞争中占得先机。过公共数据网(电信、联通、移动)和 HTTP 协议,把终端传感器采集的海量文 本、图片数据以及用户行为数据存储在云数据采集中心里,以供后期分析计算用。 第一期是单向交互,主要是终端提供数据,云数据采集中心负责计算,并作推荐。 第二期会引入终端与云数据采集中心的实时双向交互功能。云数据采集中心网络结构图172.3 核心技术及功能2.3.1 分布式文件存储技术(1) 传统存储技术面临的问题: 构建成本高:大容量及高网络带宽的高端存储系统架构昂贵。 文件

    20、系统功能和性能差强人意:难以实现全局命名空间的文件共享、 文件系统难以扩展,容易形成瓶颈。 扩展性困难:技术存在瓶颈(Scale-up 架构决定的)、扩展成本无法 控制。 可用性问题:潜在的单点故障,数据恢复困难,代价高。 应用目标差异:主要面临运营商、金融行业的 OLTP 应用、很少针 对海量的流数据,或者非结构化数据进行设计和优化。 异构设备繁杂:不同时期、不同公司、不同操作系统的异构设备纷 繁复杂,无法整合,资源利用率极低。分布式文件系统主要为解决以上问题而出现的一种新型大规模数据存储技 术架构。主要为非结构化数据(视频/文件/文档/图像/音频等非结构化数据)提 供海量的存储平台,以集群

    21、的方式提供线性横向扩展能力。分布式文件系统是一种构建于通用 x86 部件之上的高可用、高可靠、高可扩 展的新型分布式文件系统。应用分布式文件系统,用户可以采用廉价可靠的通用 服务器、SATA/SAS 硬盘以及以太网络来构建媲美企业级存储产品的存储系统。(2) 分布式文件系统应对的数据特性和访问特性: 数据量巨大,数百 TB 或 PB 级,增长迅速; 类型多样化,包括图像、文本、语音、视频等文件数据; 按时间有序生成,数据均带有时间标志 ; 前端数据写入速度很高,每秒钟写入数据可达几万甚至几十万条记 录或者上 GB 量数据 ; 更新操作极少:追加方式写入,一旦写入,几乎没有数据修改,查 询涉及大

    22、量的磁盘读操作,查询处理产生大量的临时结果,不同类 型的数据存在联合分析查询;分布式文件系统的基本原理是采用集群方式来整合物理上独立的多个存储 资源,以软件方式提供单一的名字空间;采用多副本的方式保证数据的高可用性, 任意单一节点失效均不会导致数据丢失和数据服务的正常运行;同时,分布式文 件系统通过良好设计的系统结构和数据分布策略,可保证系统性能的高可扩展性, 并支持存储容量/性能的在线扩展。相比较于 DAS(直连存储)、SAN(存储区域网络)和 NAS(网络存储), 应用分布式文件系统构建的网络存储系统更像是一个 NAS,提供类似于传统 NAS 的文件级访问接口(SAN 和 DAS 都是块设

    23、备级别的访问接口)。(3) 分布式文件系统与传统 NAS/SAN 设备的比较:比较项高端 NASFC-SAN分布式文件系统性能一般双端口,性能受机头影响,难以扩展,出口带 宽是瓶颈一般双端口,性能受机头影响,难以扩展, IOPS 较好性能随节点数的增加成线性增长扩展能力性能及容量无法扩展,或者有限扩展能较好扩展,但成本高昂性能及容量按需扩展,动态均衡可用性RAID 方式保护, 双机保护,停机 RAID Rebuid,耗 时RAID 方式保护,双机保 护 , 停 机 RAID Rebuid,耗时基于灵活的多副本机制,自动检测,自动故障恢复, 无需停机数据管理企业级功能需要单独购买企业级功能需要单

    24、独购买(还需要单独的内嵌多种企业级应用:快照、镜像、回收站文件系统,100 多万一套)成本专有的硬件平台,软件拥有成本高,扩展成本高专有的硬件平台,软件拥有成本高,扩展 成本高开发通用的硬件平台,一体化的软件,成本低,扩 展成本低可维护性专门的技术支持服务,需要培训结构异常复杂,需要大量培训,厂商服务 昂贵内嵌多种自动化的故障检测和恢复功能,国内开发, 技术支持快速用户使用分布式文件系统如同使用本地文件系统。所不同的是,传统 NAS 通常以单一节点的方式实现,容量和性能的扩展能力有限,易于成为性能瓶颈和 单一故障点。而分布式文件系统则有多个节点集合地提供服务,由于其结构特征, 分布式文件系统的

    25、性能和容量均可在线线性扩展,并且系统内不存在单一故障点。 对比参看下面两幅示意图:传统存储架构图分布式文件系统架构图 分布式文件系统的设计应用特别适合海量非结构化数据存储,大量客户端并发的 I/O 密集型应用。目前,分布式文件系统已经被应用于政府、医疗影像、 勘查数据计算、视频服务以及动画制作等领域。这些领域的数据访问特征均为: 数据量巨大,I/O 吞吐率高,数据增长迅速以及数据可用性要求高。经过长时间 的实际生产环境使用,分布式文件系统已被证明是该类型应用的有效解决方案。分布式文件系统架构图 分布式文件系统的服务器端程序运行于 Linux x64 系统之上,支持多种 Linux64 位发行版

    26、,包括 Redhat、CentOS 等。分布式文件系统客户端则支持 Linux 和 Windows,同时分布式文件系统还可以通过第三方软件输出 CIFS 和 NFS 接口, 可以兼容大多数应用。(4) 分布式文件系统的核心技术及特征: 扩展性和高性能:分布式文件系统利用双重特性来提供几 TB 至数 PB 的高扩展存储解决方案。Scale-Out 架构允许通过简单地增加资源 来提高存储容量和性能,磁盘、计算和 I/O 资源都可以独立增加, 支持 10GbE 和 InfiniBand 等高速网络互联。分布式文件系统弹性哈 希(Elastic Hash)解除了分布式文件系统对元数据服务器的需求, 消

    27、除了单点故障和性能瓶颈,真正实现了并行化数据访问。 高可用性:分布式文件系统可以对文件进行自动复制,如镜像或多 次复制,从而确保数据总是可以访问,甚至是在硬件故障的情况下 也能正常访问。自我修复功能能够把数据恢复到正确的状态,而且 修复是以增量的方式在后台执行,几乎不会产生性能负载。分布式 文件系统没有设计自己的私有数据文件格式,而是采用操作系统中 主流标准的磁盘文件系统(如 XFS/EXT4/ZFS)来存储文件,因此 数据可以使用各种标准工具进行复制和访问。 全局统一命名空间:全局统一命名空间将磁盘和内存资源聚集成一 个单一的虚拟存储池,对上层用户和应用屏蔽了底层的物理硬件。 存储资源可以根

    28、据需要在虚拟存储池中进行弹性扩展,比如扩容或 收缩。当存储虚拟机映像时,存储的虚拟映像文件没有数量限制, 成千虚拟机均通过单一挂载点进行数据共享。虚拟机 I/O 可在命名 空间内的所有服务器上自动进行负载均衡,消除了 SAN 环境中经常 发生的访问热点和性能瓶颈问题。 弹性哈希算法:分布式文件系统采用弹性哈希算法在存储池中定位 数据,而不是采用集中式或分布式元数据服务器索引。在其他的 Scale-Out 存储系统中,元数据服务器通常会导致 I/O 性能瓶颈和单 点故障问题。分布式文件系统中,所有在 Scale-Out 存储配置中的存 储系统都可以智能地定位任意数据分片,不需要查看索引或者向其

    29、他服务器查询。这种设计机制完全并行化了数据访问,实现了真正 的线性性能扩展。 弹性卷管理:数据储存在逻辑卷中,逻辑卷可以从虚拟化的物理存除,不会导致应用中断。逻辑卷可以在所有配置服务器中增长和缩 减,可以在不同服务器迁移进行容量均衡,或者增加和移除系统, 这些操作都可在线进行。文件系统配置更改也可以实时在线进行并 应用,从而可以适应工作负载条件变化或在线性能调优。 完全软件实现(Software Only):分布式文件系统认为存储是软件问 题,不能够把用户局限于使用特定的供应商或硬件配置来解决。分 布式文件系统采用开放式设计,广泛支持工业标准的存储、网络和 计算机设备,而非与定制化的专用硬件设

    30、备捆绑。对于商业客户, 分布式文件系统可以以虚拟装置的形式交付,也可以与虚拟机容器 打包,或者是公有云中部署的映像。开源社区中,分布式文件系统 被大量部署在基于廉价闲置硬件的各种操作系统上,构成集中统一 的虚拟存储资源池。简而言之,分布式文件系统是开放的全软件实 现,完全独立于硬件和操作系统。完整的存储操作系统栈(Complete Storage Operating System Stack:分 布式文件系统不仅提供了一个分布式文件系统,而且还提供了许多 其他重要的分布式功能,比如分布式内存管理、I/O 调度、软 RAID 和自我修复等。分布式文件系统汲取了微内核架构的经验教训,借 鉴了 GN

    31、U/Hurd 操作系统的设计思想,在用户空间实现了完整的存 储操作系统栈。 用户空间实现(User Space):与传统的文件系统不同,分布式文件系 统在用户空间实现,这使得其安装和升级特别简便。另外,这也极通用的 C 程序设计技能,而不需要特别的内核编程经验。模块化堆栈式架构(Modular Stackable Architecture):分布式文件系统 采用模块化、堆栈式的架构,可通过灵活的配置支持高度定制化的 应用环境,比如大文件存储、海量小文件存储、分布式文件系统、 多传输协议应用等。每个功能以模块形式实现,然后以积木方式进 行简单的组合,即可实现复杂的功能。比如,Replicate 模块可实现 RAID1,Stripe


    注意事项

    本文(云数据采集中心及大数据计算平台建设方案.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开