VMware双活数据心解决方案详解 解决方案.pptx

2014 VMware Inc. All rights reserved.,VMware双活数据心解决方案详解,,让Field SE具备以下能力,2,厘清似是而非的概念,把双活数据中心加上必要的限定条件,为每种限定条件下的双活指定一个明 确的名词。 陈述每种双活的解决方案。 当客户谈论双活数据中心时,可以根据上述限定条件确认客户所谈的究竟是哪种双活;当客户不明 确时,可以阐述上述主要的双活定义,以及所对应的双活解决方案。 当明确客户所指的双活要求时,可以使用这些素材,裁剪出需要的方案,和客户做深入的交流。 在第四部分以附件的形式,介绍一些背景知识和方案,比如传统的二层连接方式、负载均衡、存储 双活和数据库双活等。,目的,包含的内容 基于不同维度的双活实现场景的综合性说明 双活数据中心相关技术组件的分项说明 本部分内容按照技术实现方式的编号加以分项说明 不包含的内容 相关的规范和标准、术语 虚拟化及云计算基础知识介绍 本地高可用性的介绍 业务连续性的基本概念介绍 灾备等级的概念性介绍 基于SRM的异地远程灾备方案详细介绍,3,内容构成,作者,CONFIDENTIAL,4,,,,,双活是两个或多个数据中心,每个都具有独立运行生产应用所需要的所有资源。 此架构下所有的应用请求会被动态负载均衡到两个数据中心,当其中一个数据 中心故障时,另外一个数据中心接管所有的应用请求。,狭义的双活数据中心WEP/APP/DB层在两个数据中心都处于Active状态, DB层在两个数据中心都可读可写 广义的双活数据中心 WEP/APP层在两个数据中心是双活的架构,但DB层可以是Active/Hot Standby 模式、Active/Query模式或Active/Active模式,什么是双活数据中心,双活 自动的切换流程 双站点负载均衡的同时,可以实现一个站点完全失效 方面的保护 覆盖的错误包括 HA方案失效 主站点 基础架构失效 逻辑错误如应用或数据 致命的用户失误 导致的原因是 计划内宕机 自然灾害、战争、 对主站点有严重的影响 RPO为零的同时,大幅缩短RTO 跨数据中心,,什么是双活数据中心,双活系统中心的”0”切换,当前非双活系统中心模式”0”切换 本地高可用系统 异地容灾系统 应急保障系统 双活系统中心“0”切换 系统切换的风险和成本 用户满意度 运营/KPI考核 应急情况处理能力 技术创新点,,用户满意度 运营/KPI考核,双活系统 “0”切换,运行风险,设计双活数据中心的考虑因素,无论客户或者厂家实施双活数据中心都必须解决以下挑战 双活数据中心之延迟和稳定性 由于光速限制,每 100km 所产生的数据来回延迟约为1ms。该延迟已经跟一般硬盘读写可比。因此,会对实际应用性 能构成影响, 特别是两数据中心数据交互密切的业务。另外,数据中心之间的网络更难以维护和掌控。 Quorum / Tie-Breaker 之需求 为了避免双活数据中心产生脑裂Split Brain或场地分割site isolation 状况,解决方案需要提供有效的Quorum / Tie-Breaker方式来保证数据完整性. 工作负载之考虑 业务交易中,应用所产生之写操作 INSERT, UPDATE, DELETE比例越高,则越多数据需要跨数据中心传送。这类型业 务交易不利于双活数据中心设计。推荐业务划分,读写分离等有效规避数据中心间交互的架构。,9,一提到双活,你想到了什么FAQ及基本策略,Q 双活不是VMware的强项 A 双活数据中心是个复杂的工程,没有一个厂商可以独立完成。VMware理解我们在这个工程中的 作用,也理解其余部分是如何配合工作的。我们愿意为客户的双活解决方案做出贡献,我们是双活 方案的关键参与者之一。 Q 我们说的双活和你们说的双活不是一回事 A 双活是一个宽泛的概念,因此需要根据条件和目标加以界定。无论名称是什么,本质上,加以 严格界定后的双活方案是主客方都能认可的。 Q 双活主要靠的是应用层交付,如负载均衡等,而不需要虚拟机的迁移 A 负载均衡在非虚拟化时代就已经出现,随着虚拟化技术的发展,负载均衡更注重于应用交付, 而虚拟化技术则更注重于资源调度。两种技术共同作用于双活数据中心,缺一不可。 Q 你们的双活方案是什么是否能满足我们的要求 A 没有最完美的方案,只有最适合的方案。我们需要先了解客户的现状、条件,投资、以及目标, 然后给出一个最适合的方案来。,CONFIDENTIAL,10,11,实现目标 两个(多个)数据中心可同时承接业务 一个数据中心故障时,其他中心可以接管业务 需求原因,提高用户的快速体验和链路的利用率,希望可以通过 任意一条链路访问到不同数据中心的业务; 希望双中心都能提供业务负载,需要时可直接在另一 个中心扩容资源; 满足临时快速加载基础架构资源的要求。,S1S2A,,S1S2B,,,用户 S1、S2 代表不同的业务系统 S1、S1 代表相同业务系统的不同数据中心部署实例 S2A、S2B 代表相同业务系统的不同业务子模块,数据中心A,数据中心B,,工作特点,充分利用资源,避免了一个数据中心常年处于闲置状 态而造成浪费,通过资源整合,双活数据中心的服务 能力是双倍的; 如果中断了一个数据中心,其他的数据中心仍可独立 响应业务,对用户来说业务切换是无感知的,,,1. 双活数据中心解决方案概要,三种主要的双活场景的定义,CONFIDENTIAL,12,分应用双活,单个业务完整地运行在一个站点, 在另一站点提供灾备。 每个站点都同时提供部分业务的生产, 以及另一部分业务的灾备。,主备站点间有数据复制 服务,包括对所有虚机 存储的复制。,对称双活,业务或用户分配到两个数据中心, 每个数据中心都有自己的应用集群对外服务,CDN/GTMLTM 跨中心建立共用数据库。有裸光纤及DWDM 平时所有的中心均承载业务,实现资源最大利用,存储双活 出现灾难时,正常的生产数据中心接管故障中心承载的业务。数据库双活,Active/Active 应用服务器层,Active/Standby 数据库层,Active/Active Web 层,1.1 非对称双活,双生产中心均提供web层和app层服务 数据库服务只在其中一个中心提供 通过数据复制技术将数据复制到对方 出现灾难时,根据需要分层切换,或全部切换到另一中心。,,生产数据中心1,生产数据中心1,生产数据中心2,,生产数据中心2,Web,,App,,DB,,Web,,App,,DB,应用A访问,应用A访问,任意客户端,,,生产数据中心1,生产数据中心1,生产数据中心2,,生产数据中心2,双生产中心均需要完成生产业务 通过数据复制技术将数据复制到对方 通过业务模块或用户的方式将业务分配到不同的中心 平时主要的处理能力均分配给生产应用系统使用 出现灾难时,根据需要接管的方式,动态调度资源给备份系统使用,应用B 备份系统,应用A 备份系统,应用B,,应用A访问,应用B访问,1.2 分应用双活,应用A,任意客户端,,,,,,生产数据中心1,生产数据中心1,生产数据中心2,,生产数据中心2,应用B,应用A,应用A,应用B,1.3 对称双活,双生产中心均需要完成生产业务 通过双活存储进行数据复制,在两边提供无差别的存储服务 通过业务模块或用户的方式将业务分配到不同的中心 平时主要的处理能力均分配给生产应用系统使用 出现灾难时,根据需要接管的方式,动态调度资源给关键应用使用,应用A访问,应用B访问,应用A访问,应用B访问,任意客户端,1.4 混合模式,大型数据中心中,允许这三种模式的混合应用 不同的应用,可以采用不同的双活模式;或者部分应用双活,另外的应用采用灾备。 综合应用上述组合,为不同级别的应用,提供不同级别的保障。,CONFIDENTIAL,生产数据中心1,生产数据中心1,生产数据中心2,,生产数据中心2,应用C 备份系统,应用B 备份系统,应用C,,应用B访问,应用C访问,应用B,Web App应用A DB,,应用A,Web App DB,应用A访问,应用A访问,应用D,应用D,应用D访问,应用D访问,任意客户端,17,双活数据中心部署决策树,18,,两个站点之 间的距离是 否小于100 公里 ,,两个站点之 间是否有裸 光纤和/或 波分设备,,基于互联网 的业务还是 基于内网的 业务,,基于DNS, 还是基于IP,分应用双活,,基于双活存 储,还是基 于同/异步 复制存储,否,否,否,应用调度CDN/GTM LTM 资源调度延伸集群,,应用调度LTM 资源调度延伸集群,基于互联网,基于DNS,基于IP,,应用调度GTM LTM 资源调度延伸集群,,非对称双活,对称双活,vSphere 6适用于双活数据中心的特性,vMotion RTT时延低于150毫秒,带宽不低于250Mbps。 每个Kernel端口都拥有独立的TCP堆栈,可以跨L3网络迁移。 可以跨本地、城际,甚至洲际进行虚拟机迁移。 可以跨vCenter迁移,迁移时可以变更主机、网络交换机和存储。 迁移时业务不中断,虚拟机IP地址保持不变。 跨vCenter保持UUID、MAC地址不变,保留原有数据和策略不变。,CONFIDENTIAL,19,,,Virtual SAN 6.1 适用于双活数据中心的特性,可以跨站点设置故障域。 当一个站点故障时,还有一份完整的副本保存在另外一个站点。,代替双活共享存储,成为双活VSAN。,vSphere Virtual SAN,Hard disks,SSD Hard disks,SSD,SSD Hard disks,,Hard disks,SSD Hard disks,SSD,SSD Hard disks,,vCenter Server,生产数据中心1,,生产数据中心2,,故障域A 故障域B Virtual SAN Shared Datastore,20,仲裁机制,第三地,,Virtual SAN 6.1 适用于双活数据中心的特性,可以跨站点设置故障域。 当一个站点故障时,还有一份完整的副本保存在另外一个站点。,代替双活共享存储,成为双活VSAN。,vSphere Virtual SAN,Hard disks,SSD Hard disks,SSD,SSD Hard disks,,Hard disks,SSD Hard disks,SSD,SSD Hard disks,,vCenter Server,生产数据中心1,,生产数据中心2,,故障域A 故障域B MacroSAN,21,仲裁机制,第三地,,NSX 6.2适用于双活数据中心的特性,CONFIDENTIAL,22,底层网络只需要提供三层可达,作为IP传输网。 物理交换机可以多厂商、多型号混合组网。 数据中心内部和数据中心之间的连接,除带宽外没有区别。 可以跨多个vCenter、跨多个站点组网。 把原来隔离的多个小资源池整合为一个大的资源池。,多租户/多应用之间天然隔离,以虚拟机为最小单位,而不是之前的以Host 为单位。 租户/应用内部提供所有虚拟化颗粒自由组合的安全策略。 提高了跨站点资源调度的灵活性。,提高了资源的利用率。,SRM 6适用于双活数据中心的特性,可以和NSX配合,同时对虚拟机和虚拟网络进行 复制和保护。可以保持或改变IP地址。 一键恢复 以虚拟机为中心的基于策略的存储和复制 集中化恢复计划 基于策略的集中式调配 自动执行灾难恢复故障切换 计划内迁移和灾难规避 自动故障恢复 轻松执行测试 无中断测试 不遗漏任何应用 灵活且经济高效的复制 实现所有虚拟化应用的灾难恢复自动化 支持第三方基于阵列的复制,,CONFIDENTIAL,23,SRM站点恢复管理器使用场景,,恢复意外失败的站点 全部或部分站点失败,关键但极少发生的场景 站点意外故障,但不常发生 一旦发生,要求快速恢复业务,,数据中心预期的潜在威胁 如飓风、海啸及强制撤离等,为预防故障发起的平滑迁移 利用SRM的“计划内迁移”来保 障数据零丢失 “自动故障恢复”确保在故障恢 复后将业务切换回主站点,,SRM应用最多的场景 计划内数据中心维护 全球负载均衡,简化跨站点迁移的程序 不中断的测试/切换演练 “计划内迁移”确保数据零丢失 “自动故障恢复”确保双向迁移,,灾难恢复灾难规避,,,计划内迁移,,vRA exit,VIP监测机制机制,避免脑裂与心跳机制,,,为避免出现脑裂,RAC采用了心跳机制。 心跳机制可以验证 私网是否在正常通讯。 RAC 节点本身是否在正常工作。 共享存储是否在正常工作。 RAC有两种心跳机制 网络心跳检查私网与RAC节点是否正常。 磁盘心跳检查位于共享存储上的Vote Disk是否正常。,,,网络心跳 (Network heartbeat)的工作机制 正常情况下集群节点每秒钟要发出一次心跳(或者说被ping一次) 如果在由CSS Misscount 参数限定的时间内(默认30秒)还没有发出心跳,则认为该节点当 前工作不正常,出现了心跳超时。 对于心跳超时的节点,RAC会将其逐出集群。 Oracle Clusterware中的CSSD进程负责完成上述的网络心跳机制。下面是CSSD进程日志 文件中的一个示例 date/time CSSD1111902528 clssnmPollingThread node mynodename 5 at 75 heartbeat fatal, removal in 6.770 seconds 出现网络心跳超时的一般原因 私网网络方面的问题比如网卡、网线、交换机等。 主机hang或者超过30秒没有响应,避免脑裂与心跳机制,,避免脑裂与心跳机制,,,为提高私网的高可用性,避免网络心跳超时,可以采取 网卡绑定 传统的手段,由主机厂商提供 比如HPs Autoport aggregation, IBM Etherchannel, SUN Trunking, 其他等。 通常不支持Load Balancing,只能支持Failover 或者Oracle Redundant InterconnectHAIPs Oracle的解决方案从11.2.0.2开始提供 每个服务器最多支持4个网卡,可以使用不同的子网,可以使用 VLAN 同时支持Load Balancing和Failover,,新一代系统所使用的模式 Power VM 虚拟网卡 多路径,,避免脑裂与心跳机制,,,总结通过上述配置,在发生如下故障时RAC系统不受影响 单个交换机故障 某个主机上的单个网卡故障 某台主机上单个网卡到交换机的链路故障,避免脑裂与心跳机制,,,磁盘心跳 (Disk heartbeat)的工作机制 CSS(ocssd) 进程负责管理集群成员,监控集群健康情况。 ocssd是一个多线程(thread)的进程,其中Disk Ping thread和Disk Ping Monitor负责监 控管理磁盘心跳。 Disk Ping thread每秒钟向vote disk写入信息,以表明当前节点正常工作;同时还会从vote disk中的“kill block”中读取信息。 Disk Ping Monitor thread负责监控Disk Ping thread是否正常读取“kill block”,如果发 现Disk Ping thread 不能读取vote disk的“kill block”信息,说明IO有问题,如果超时达到 timeout(缺省为200s),那么会将vote disk offline,这就是磁盘心跳超时。 下面是CSSD进程日志文件中的一个示例 cssd9240642CRS-1615No I/O has completed after 50 of the maximum interval. Voting file /dev/rhdiskpower0 will be considered not functional in 99143 milliseconds 出现磁盘心跳超时的一般原因 存储方面的问题 主机hang或者超过200秒没有响应,,,外部冗余,NORMAL冗余,HIGH冗余,避免脑裂与心跳机制,,,为提高共享存储的高可用性,避免磁盘心跳超时,可以采取冗余机制 利用ASM磁盘组的冗余模式 利用ASM的失效磁盘组即把不同盘柜的盘加入不同的失效组,实现更好的 冗余。 ASM磁盘组具有三种冗余模式 外部冗余由磁盘阵列负责实现数据的冗余(传统方式) Normal冗余模式即实现数据的镜像 High冗余模式即实现数据的三重镜像,,ASM的失效磁盘组 CREATE DISKGROUP DSKGRPA NORMAL REDUNDANCY FAILGROUP controller1 DISK /oracle/oradata/asmdisk04, /oracle/oradata/asmdisk05 FAILGROUP controller2 DISK /oracle/oradata/asmdisk06, /oracle/oradata/asmdisk07;,,,外部冗余 NORMAL冗余 HIGH冗余,避免脑裂与心跳机制,,新一代系统所使用的模式 NORMAL 冗余模式 2个失效磁盘组对应各自的盘柜。,,,外部冗余 NORMAL冗余 HIGH冗余,避免脑裂与心跳机制,,新一代系统发现的问题 现象 在PowerVM中,多路径切换软件有30秒的延时,会出现操作系统没有报错, 但是ASM磁盘offline的现象。 这是因为如果磁盘不可访问,默认15秒后发起磁盘组删磁盘。 解决办法 设置ASM实例的一个隐含参数 _asm_hbeatiowait 35,,配置连接时容错,问题现象 当节点停止或者公网不可用时,VIP会漂移。使用负载均衡模式或主备模式链接的 应用,不受影响。只要一个节点有效,应用可以继续发起连接) 解决办法1VIP 负载均衡连接配置 RAC DESCRIPTION LOAD_BALANCE yes ADDRESS PROTOCOL TCPHOST rac1-vipPORT 1521 ADDRESS PROTOCOL TCPHOST rac2-vipPORT 1521 CONNECT_DATA SERVICE_NAME rac, ,解决办法2 VIP 主备连接配置 rac_failover DESCRIPTION enablebroken LOAD_BALANCE no ADDRESS PROTOCOL TCPHOST rac2_vipPORT 1521 ADDRESS PROTOCOL TCPHOST rac1_vipPORT 1521 CONNECT_DATA SERVICE_NAME rac failover_modetypeselect basic, ,,配置连接时容错,问题现象 对于普通主机的物理网卡,如果公网不通,或者公网网卡发生错误,主机会自动 侦测到,并发生VIP漂移。在powerVM测试中, 公网及时不通,主机也不会侦测到, VIP不会自动切换。 解决办法手工reallocate vip资源,,,,,Oracle extend RAC双活方案介绍,Oracle Extended RAC 参考架构,Oracle Extended RAC 提供一种可以从单一站点,Source Oracle Real Application Clusters on Extended Distance Clusters,故障极快恢复的架构,允许所有站点的所有节点 都可以像属于同一个数据库集群里一样处理交易,距离延迟的影响会导致这种架构在实施上的一些,实际限制. 这种架构比较适用于两个距离相对较 近的数据中心 100km,对于数据逻辑性损坏,地域性灾难等更为全面性,的保护,Oracle推荐使用Data Guard with RAC.,需要配以基于系统软件的存储镜像 例如 Oracle,ASM, LVM mirroring, GPFS 或者 基于阵列的 存储镜像 例如 IBM Metro-Mirror,,,,,Interconnect IC or Private Network Traffic Unit Test Results,I/O Latency Increase Over Distance,TPC-C like Workload over Distance,Oracle RAC over Distance 参考架构,,Geographically Dispersed Mirrored Disk e.g. IBM SVC Stretched Cluster, IBM GPFS, EMC VPLEX,Oracle Extended RAC 测试结果,Source Oracle Real Application Clusters on Extended Distance Clusters,存储分布式双活技术,A,主数据中心 应用系统 A,,备用数据中心,A,应用系统 A,,存储同步复制,Acti,存储实现集群,技术成熟 灾难切换指标 RPO “0” 存储故障RTO 秒级20秒 主机故障RTO 10-120分钟,主机集群,,数据双活(存储集群),业界存储集群技术,存储数据同步与镜像存储高可用技术 主机磁盘卷镜像技术 AIX/ASM LVM、Symantec Storage Foundation卷镜像 基于虚拟化卷镜像技术 IBM SVC、EMC VPLEX Metro 基于存储同步复制技术 HDS High Availability Manager简称“HAM” IBM HyperSwap/Open HyperSwap,,存储厂商只能谈存储集群(高可用)的问题,双活数据中心存储解决方案的选择,传统虚拟化存储-镜像技术 两个数据中心采用相同硬件配置,数据同步双写 如EMC VPLEX, NetApp MetroCluster, HP LeftHand, IBM SVC等,采用新型软件定义存储解决方案 VVOL可实现存储资源的统一调度与管理 VSAN可极大简化存储管理,实现全面自动化,LUN,,LUN,disk group,disk group,VSAN network,VSAN network,vsanDatastore,disk group,disk groupdisk group,scale up,,scale out VSANVSAN network network,城域集群对存储的要求,ESXi管理网络支持RTT10ms 同步存储复制RTT5ms 存储厂商可能有不同要求 兼容性指南 “iSCSI Metro Cluster Storage” “FC Metro Cluster Storage” “NFS Metro Cluster Storage”,vMSC认证的存储设备,103,城域集群中的传统存储解决方案,Site A,Site B,Dark Fiber,200 km,Aggr X Plex0,Aggr Y Plex1,Aggr Y Plex0,DWD M,,DWD M,Aggr X Plex1,104,Metro Storage的两种实现方式Uni与Non-Uni,,,传统存储体系架构跟不上业务发展的需求,面向设备的管理,复杂的流程,虚拟化 管理员,,存储 管理员,,应用 管理员,专用的高成本硬件,,106,VMware软件定义存储生态系统,Storage Policy-Ba基sed于Mg存mt储策略的管理 vSphere Virtual SAN,SAN / NAS,vSphere Virtual Volumes,Virtual Datastore,VMware软件定义存储,Virtual Datastore,,107,Virtual SAN可有效降低灾备解决方案的复杂度与成本,场景描述 在灾备解决方案中,往往需要双倍存储空间来保障数据的可用性,这就意 味着双倍的采购成本和管理负担。要在存储设备层面上实现数据的复制, 需要配置中高端存储和数据复制模块,服务级别的定义和映射的颗粒度也 不理想。,方案特点 可同时应用于主站点和灾备站点,也可单独应用于灾备站点 利用VDAP和vSphere Replication实现数据保护与复制 与SRM应用切换解决方案集成,实现自动化灾备服务 不依赖特定硬件,主备站点可以采用非对称设计,,备份与灾难恢复,Site ASite B 与VDAP、vSphere复制 和SRM等解决方案紧密 集成 可显著降低灾备站点的存 储开销 简化数据中心的管理任务,108,存储高可用技术分析-对比,VOL1,VOL2,VOL1,VOL2,VOL1,VOL2,V-VOL,,不同技术实现相同的存储集群高可用功能,主机逻辑卷镜像 AIX/ASM LVM,虚拟卷镜像 VPLEX/SVC,存储复制 HAM/Hyperswap,存储高可用技术分析-卷镜像,存储阵列存储阵列 基于主机磁盘卷镜像技术 LVM、Symantec Storage Foundation、Oracle ASM卷镜像 Oracle 12G以后只支持ASM 消耗一定主机CPU和内存资源,影响应用系统性能; VMware不支持LVM技术,VOL1,VOL2,主机,卷镜像,,存储高可用技术分析-虚拟化卷镜像,基于虚拟化卷镜像技术 IBM SVC、EMC VPLEX Metro 通过存储虚拟化后的卷镜像技术实现高可用,增加存储虚拟化的工作量和风险; 在主机和存储间增加虚拟化层,增加架构复杂度和故障点,导致成本增加,性能下降; 不能完全提供新的智能存储功能; 与传统的容灾技术不能良好的集成和兼容。,VOL1,VOL2,V-VOL,存储阵列,存储阵列,主机,存储虚拟化引 擎,卷镜像,Synchronous Distance,Virtual Volume,Distributed RAID 1 Device,Cluster-1/Site A,Cluster-2/Site B,VPLEX-1,VPLEX-2,存储高可用技术分析-存储同步复制,基于存储同步复制技术HDS HAM和IBM Open HyperSsap 通过存储同步复制实现高可用,支持ASM,不消耗CPU和内存资源,是业界发展方向; 架构简单和故障少,导致底,性能好; 能完全提供新的智能存储功能; 与传统的容灾技术良好集成和兼容,如提供3DC等强大的容灾功能,VOL1,VOL2,同步复制,存储阵列,存储阵列,主机,服务器 应用,,多路径软件HDLM,UVM,,VSP,,VSP,Active路径,,VOL pair,,V-vol SVOL,V-vol PVOL,远程复制链路,UVM,集群卷,Quorum 仲裁卷,,,主机存储集群技术存储同步复制,,HyperSwap,,存储集群两地三中心架构,存储统一复制,,高端-2,RAC1,SAN,高端-1,应用系统,数据库系统,生产中心,存储集群,RAC2,SAN,应用系统,数据库系统,高端-3,灾备中心,最高可用性统一容灾架构, 2014 VMware Inc. All rights reserved.,感谢聆听,