应用容灾方案设计.docx
- 文档编号:11144757
- 上传时间:2023-05-29
- 格式:DOCX
- 页数:15
- 大小:122.26KB
应用容灾方案设计.docx
《应用容灾方案设计.docx》由会员分享,可在线阅读,更多相关《应用容灾方案设计.docx(15页珍藏版)》请在冰点文库上搜索。
应用容灾方案设计
一、行业需求分析
1.1行业背景分析
目前,信息化建设已经成为全球社会和经济开展的重要工具,各行各业都在大力建设符合本行业需求的生产和管理信息化系统,并已经从中大为受益,生产效率和服务质量均有很大程度的提高。
作为社会公共事业的城市XX行业,更是顺应社会开展和技术革新的趋势,早已摆脱了纸质文件的管理模式。
我国城市XX企业从上世纪90年代初期就不同程度地开始致力于信息系统的建设,在长期的探索、开发和应用过程中,积累了丰富的建设经验,企业信息化的水平不断提高。
近几年来,“数字XX〞、建设信息社会等新趋势的出现,对城市XX企业信息化的要求越来越高。
以生产管理、管网管理、营业管理、无纸化办公为主要核心的管理信息系统,得到长期的应用实践,已经成为城市XX企业工作中不可缺少的工具。
城市XX企业的业务性质与一般的企事业单位有很大的不同,它面对着千家万户的服务需求,管理着整个城市X围内纵横交织的地下管网和大量设备。
因此,与之相匹配的信息系统必须符合安全稳定XX的严格要求,必须要为做好用户服务的工作宗旨提供现代化的信息管理。
自来水作为城市的生命之源,XX企业的服务质量关系到人民的健康和政府的形象。
此外,城市XX企业信息系统的建设也是响应国家确立的以信息化带动工业化,以信息化推动现代化的开展战略思想。
城市XX信息化不仅适应城市信息化迅速开展的需要,而且对XX企业的企业现代化建设和管理工作来说至关重要,充分表现了城市XX企业“数字XX〞的服务理念和管理水平,也是响应国家《城市XX行业2010年技术进步开展规划与2020年远景目标》的具体实践。
1.2数据备份保护需求
既然信息化已经在城市XX行业广泛普与,那么在信息化系统中数据的重要性不言而喻。
关键数据的丢失,不仅造成经济损失,甚至关系到企业的生死存亡。
美国国家档案与记录管理局的研究显示,在没有很好的数据保护和恢复策略的公司中,80%的公司将会在发生关键数据丢失后的两年内倒闭。
另外的调查显示,如下因素是导致数据丢失的常见原因
数据的破坏难以,也存在多种可能性,因为要建立起完善的数据备份系统和备份机制。
城市XX行业的信息化系统中,类似于XX管网数据、用户信息、营业收费数据等等,都是不允许丢失的关键数据,必须将其重点保护起来。
1.3业务连续性需求
伴随着IT信息化的推进,自来水企业运营对IT系统的依赖度越来越高,IT系统的可持续化运行与IT系统中数据的安全性,对企业开展有重大影响。
当灾难突发时,绝大多数企业所能做的事情,就是在灾难发生两三天以后恢复灾难发生前的数据。
而这并不能满足在激烈竞争环境中力求开展的企业需求。
越来越多的企业认识到,仅仅做好数据备份这个环节,对于保障企业在遭遇突如其来的意外事件前,依然能够保持业务持续运行,还远远不够。
大多数企业所希望的,不是灾难发生假如干天后忙碌、紧X而又缓慢地恢复整个业务系统,而是希望不论任何灾难降临,业务都能持续不断的运行,即实现业务连续性。
要实现业务的连续性,就要实现应用系统的容灾。
在选择容灾方案时,RPO、RTO与ROI〔投资回报率〕是任何企业都需要慎重面对的命题,而利用系统宕机所带来的本钱代价可以衡量业务连续性投入所能带来的回报。
如果你的业务系统宕机一小时,将会样?
Meta集团在对多达十几个行业的调查,得出的结论是平均损失高达100万美元,如下图是21个行业宕机1小时需要付出的代价:
企业的业务越来越依赖于IT系统、软件以与数据,而系统宕机给企业带来的损失却不断上升。
例如制造业企业的ERP系统如果宕机,它的整个业务将会停顿;在IT环境中要达到99%的正常运行,意味着每年3.5天的宕机时间,而99.99%的正常运行意味着每年8小时的宕机!
城市XX行业作为社会公共事业,IT系统的瘫痪就可能导致整个城市XX的中断,不仅仅意味着经济损失,更无法达到为用户服务的宗旨,甚至会引发严重的社会问题。
面对如此严峻的形式,如果自来水企业希望用最少的投资获得系统100%运行,就必须考虑采用一种最适宜的方案,在保证业务系统持续运行的同时获得最优投资回报,从而更专注于业务而不必担心系统宕机会带来的影响。
容灾,势在必行!
1.4方案目标
随着城市XX企业IT业务数据量的快速增长,为了保证业务的连续性,提高业务系统的容灾能力,并提高灾难应急水平,需要建设完整的灾备系统,使业务系统得到有效的保护,增强信息根底设施和重要信息系统灾难恢复能力。
根据城市XX行业的实际需求,建设的灾备系统需具备如下功能:
1.结构化和非结构化数据的备份与恢复。
2.支持关键数据库的持续保护和灾难接收,保证关键数据不丢失以与数据库服务不中断。
3.对关键业务系统进展持续保护,并在灾难发生后,可通过虚拟机或物理机的方式进展数据恢复和业务接收。
4.鉴于信息系统的复杂性,方案同时支持多种操作平台〔Windows、Linux、UNIX〕的备份与恢复;
5.在保证业务系统高可用的同时,支持容灾数据恢复到任意时间点;
6.支持统一监控功能,能够监控到灾备系统各模块的工作状态以与资源消耗等数据;
7.支持基于Web界面的管理、监控、维护操作,方便管理员学习和操作。
8.根据IT环境开展的需要,容灾存储可在线扩容。
9.灾备系统应可实现容灾恢复演习,以验证备份数据的可用性与应用接收的可行性。
1.5方案设计原如此
根据城市XX行业的需求和业务特点,在灾备系统建设方案设计时,我们将遵循以下原如此,保证整个方案的针对性和合理性。
Ø符合行业技术潮流和开展方向
软件产品符合国际主流的技术和开展方向,具有很长的技术。
Ø支持未来应用系统的可扩展性
通过模块化的扩展支持未来可能投入使用的应用系统,减少额外投资。
Ø减少对正常的业务系统的影响
灾备系统的实施尽量防止影响到业务系统正常运行。
Ø系统的安全性
从应用服务器操作系统、生产数据、容灾数据到容灾接收、灾难恢复、容灾演习,灾备系统都应该提供高可靠的安全保障体系,保证数据的安全。
Ø恢复数据的可靠性
灾备系统不但要能够实现应用系统的高可用,同时要能兼顾历史数据恢复的可靠性,真正实现业务系统的容灾。
二、方案设计
2.3方案三:
XXX备份容灾整体解决方案
由于XX企业信息化系统的复杂性,我们将各子系统中的服务器分为非关键应用服务器和关键应用服务器,分层次对其进展保护。
对于非关键应用服务器,我们需要关注的是系统的备份,以保证故障排除后服务器系统和应用能恢复正常;而对于关键应用服务器〔例如:
数据分析服务器、数据交换服务器、GIS系统服务器、计费系统服务器、财务管理服务器、OA服务器、Web服务器〕,我们需要关注的是业务的连续性,也就是应用不中断,因此我
们需要对应用进展容灾。
我们提供了两种容灾方式:
一种是虚拟机容灾,通过虚拟化平台上创建虚拟化容灾服务器,然后将生产服务器的系统、应用环境以P2V的方式复制到虚拟化容灾服务器中再通过内置的实时复制与灾难恢复功能,为生产服务器提供给用容灾保护。
在满足业务可持续性运行需求的根底上,采用虚拟服务器作为容灾服务器,可有效的减少方案的投入本钱并降
低管理难度;应用系统可达到RPO和PTO都接近于零的目标;一种是物理机容灾:
XXX备份存储柜将生产服务器的系统、应用环境恢复到物理容灾服务器,并继续向外提供服务。
这种方式最大的优点在于能够提供故障后的性能保证,适合于性能要求较高的应用。
系统拓扑图如下:
关于虚拟机容灾和物理机容灾的选择,我们可以根据DRO指标〔DRO即容灾目标,为容灾服务器与生产服务器的性能比值〕。
DRO>=90%:
采用实体机,且配置根本与生产服务器匹配
DRO>=70%:
采用配置相当于生产机70%性能以上的实体机,或者虚拟机
DRO>=50%:
采用配置相当于生产机50%性能以上的实体机,或者虚拟机
DRO>=30%:
采用配置相当于生产机30%性能以上的实体机,或者虚拟机
2.4系统部署建议
XXX的备份容灾方案是一种可持续性的容灾方案,可保证业务系统在发生灾难时仍可持续对外提供服务。
因此,为了能够实现对数据库与文件系统的持续保护〔CDP〕,需要在进展数据备份和灾难恢复之前设置好容灾策略:
1)配置容灾服务器,安装与生产服务器一样版本的应用软件和数据库软件,保证容灾服务器的应用能正常使用,如果通过虚拟服务器做容灾如此需要通过P2V工具将生产服务器迁移到虚拟化平台,迁移出的虚拟服务器跟原来的生产服务器的应用配置和数据库完全一样,不需要额外配置;
2)为实时备份任务分配适宜的存储空间:
在创建实时任务之前,需要划分专门的OFS卷来存储实时复制的数据;同时,为了保证网络传输过程中数据的一致性,实时备份任务会将变化的数据先缓存一份在生产服务器本地硬盘日志缓冲池,因此也需要进展如下配置:
✧分配一个或多个OFS卷作为实时备份数据的存放地点,大小可以视数据量大小而定,一般建议不低于原始数据的2倍;
✧如果业务系统上的数据变化比拟频繁,且变化数据量较大,在选择本地日志缓冲池的时候请能选择剩余空间较大的本地磁盘。
3)根据生产服务器保护策略的不同建立实时备份任务和灾难恢复任务。
实时备份任务用于对数据进展持续保护,而灾难恢复任务创建后,当生产服务器出现宕机,容灾服务器可进展接收,接替生产服务器对外继续提供服务,从而保证业务的连续性。
具体建议如下:
✧如果不需要进展业务接收,如此只需创建实时备份任务,并随时观察任务的执行状况与输出信息;
✧如果需要进展业务接收,需要创建实时备份任务后,相应地创建一个或多个灾难恢复任务,灾难恢复任务的多少视容灾服务器设备数量而定;
✧创建灾难恢复任务时可对生产服务器进展故障检测配置,假如生产服务器出现异常,且持续一段时间后,系统就会判断生产服务器发生故障,并进展接收。
判断故障的条件可根据实际情况配置,例如:
配置生产服务器5分钟之内无法访问即认为是断开连接,或者数据库停止对外服务后,尝试重启10次即认为数据库发生故障。
✧接收策略的配置:
XXX备份软件提供手动接收和自动接收两种策略,当故障检测条件满足后,容灾服务器即可进展自动业务接收,如果不依赖于故障检测条件,当生产服务器出现故障时可根据需要通过管理控制台进展手动接收。
XXX的应用容灾方案是为了保证业务可持续运行,借助XXX备份软件内置的实时备份和灾难恢复模块,可保证业务系统在发生灾难后可持续对外提供服务。
首先必须为生产服务器数据库或文件系统创建实时备份任务和灾难恢复任务,当生产服务器正常运行时,数据库服务器和应用服务器的数据会持续复制到对应的容灾服务器上,保持容灾服务器和生产服务器数据的一致性。
假如生产服务器发生故障,如网络故障、服务器掉电、应用故障、数据损坏等,系统会根据设置的故障检测策略结果进展判断,如果满足接收条件且设置自动接收,如此容灾服务器会自动接收,接替生产服务器继续对外提供服务;如果没有设置为自动接收,如此当接收条件满足后,系统会发出警告或记录日志,提醒管理员接收业务,管理员可在管理控制台的操作页面上进展手动接收。
接收成功后,可以进入备份数据管理页面,选择数据库或文件系统最新的时间点或指定的时间点,恢复到生产服务器;或者进入灾难恢复管理页面,将生产服务器添加到对应的灾难恢复任务中,添加成功后,系统会自动恢复最新的数据到生产服务器。
数据恢复完成后,假如已将生产服务器添加到对应的灾难恢复任务中,如此通过管理控制台,单击手动接收,即可将业务从容灾服务器切换回生产服务器。
应用容灾过程从创建任务到应用接收到应用回切,实现了业务的连续性与最小RPO、RTO的指标。
恢复过程
当数据损坏或丢失时,可以从XXX备份存储柜中恢复数据。
借助XXX备份存储柜,数据的恢复变得快速和简单。
对于容灾数据而言,通过Web统一管理界面,可以选择准确到秒级的时间点恢复,将数据库服务器和应用服务器的容灾数据恢复到生产服务器。
对于系统备份的数据而言,可以选择任意的时间点进展操作,无论是完全备份、增量备份还是差异备份,都能一步到位进展恢复〔无需先恢复完全备份时间点,再恢复增量或差异备份时间点〕。
2.5灾难恢复的设计
灾难恢复在整个应用容灾过程占有相当重要的地位,因为它关系到系统在经历灾难后能否迅速恢复到可用状态。
传统的备份方法,如果系统彻底崩溃,要恢复数据必然要先进展操作系统和应用程序重装、配置等繁琐的操作,不仅浪费大量的时间,还会造成业务的长时间停顿并丢失数据。
因此系统崩溃后,能迅速恢复系统到可用状态是重中之重。
为了将灾难的损失减到最低,需要严格执行已制定的数据库和文件系统的容灾策略和系统备份策略,并定期对灾备数据进展检查,保证灾难发生后数据能够有效恢复。
为了保证灾备任务正常运行,管理员需要定期进展巡检,查看绑定的告警信息,查看定时备份任务、实时备份任务与灾难恢复任务的执行情况,同时关注存储空间的使用状况。
制定应急预案,在灾难发生的第一时间就有相关人员立刻响应,如果数据库服务器和应用服务器发生灾难触发了接收操作,管理员应立即尝试恢复原生产服务器,并将恢复后的生产服务器添加到灾难恢复任务中,在第一时间使业务系统恢复正常。
要保证灾难恢复的可靠性,仅仅依靠检查灾备任务能否正常运行,或者仅确定灾备数据是有效的还不够,还要结合灾难演练,用以验证灾难发生时容灾服务器的可用性,确保能够成功接收。
对于系统定时备份而言,每隔一段时间,可以利用淘汰的机器或多余的硬盘进展灾难恢复模拟演练,以熟练灾难恢复的操作过程,并检验所备份的数据是否可靠。
对于数据库服务器和应用服务器的容灾实时复制任务而言,可利用XXX备份软件内置的灾难演习模块进展验证,通过管理控制台统一管理界面,单击开始演习按钮,即可进展演习操作。
演习过程中容灾服务器会尝试对外提供服务,使验证过程更加直观和有效。
方式
当业务系统遭受破坏时,可根据实际的系统环境,采用如下灾难恢复方式:
Ø对于采用了应用容灾保护的关键应用服务器,有下面几种情况:
⏹如果出现数据异常〔逻辑错误或数据丢失〕,且没有进展容灾接收,可以先停止生产服务对外服务,并立即选择最近的时间点进展恢复,数据恢复完成后立即重启应用和实时备份任务以与对应的灾难恢复任务;
⏹如果发生应用故障〔系统崩溃等〕,利用容灾服务器进展自动或手动接收,接替生产服务器对外提供服务。
随后,需要先恢复生产服务器的应用〔如果系统或者硬件损坏要尝试用先恢复系统或者更换硬件〕,再通过现有IP网络连接到XXX备份存储柜,将恢复后的生产服务器添加到灾难恢复任务中,使容灾数据反向复制到生产服务器,保持数据的一致,完成后再将业务切换回原生产服务器。
2.6灾备系统管理建议
鉴于数据保护的重要性,灾备系统也需要有相应的人员来负责管理。
灾备系统虽然不如其它系统复杂,但也需要通过简单的学习才能更好对灾备系统进展有效、安全的管理。
灾备系统管理员可以是专职的也可以由系统管理员、数据库管理员或网络管理员兼职。
尽管灾备系统管理员可以对整个灾备系统拥有至高无上的管理权限,但在实际操作中灾备系统管理员的主要职责应该是协助其它管理者使用灾备系统,充分发挥灾备系统的作用,保证业务系统的安全可靠。
无论是在制定新的或改变已有的备份策略时,灾备系统管理员应与系统管理员和数据库管理员进展沟通,由他们决定备份策略的内容,也就是说备份策略的制定者应该是系统管理员和数据库管理员而不是灾备系统管理员。
灾备系统管理员只负责协助其它管理员使用灾备系统。
由系统管理员和数据库管理员决定对哪些数据进展备份、在时候进展备份、备份是使用全备份或增量备份以与备份的保存周期等,最终再由灾备系统管理员根据制定的策略,创建灾备任务并监控各任务的状态,确保灾备系统的可用性与可靠性。
服务器系统的改变或数据库的改变以与应用的需求等在实际操作过程中都难以防止,为了适应各种需求,需要对灾备系统的备份策略进展修正以适应改变。
当需要对备份策略进展改变时,应按一定的程序执行:
1.首先,应由应用、系统或数据库管理员提出需求,将需要改变的内容以书面形式提交给灾备系统管理员;
2.管理员收到需求后,需要确定修改内容的合理性以与可行性,分析修改操作是否会对其他应用系统产生影响并尽量将影响控制在最小X围。
在确认可以进展修改后,灾备系统管理员再执行变更操作;
3.管理员将灾备系统修改的内容记录下来进展备案;
4.安排相关人员对修改后的局部进展相应的测试。
恢复操作会直接影响到实际的应用执行,如果恢复操作不当可能会造成严重的后果。
因此,恢复操作应严格按照一定的操作程序进展。
Ø故障确认
在进展恢复之前首先应该确认造成故障的原因。
故障的原因非常多,应该分清是操作系统故障还是数据库故障。
如果是数据库的故障,不同的数据库应采用不同的故障分析方法,有时可以使用数据库提供的故障诊断工具进展故障分析。
工作应由相应的管理者如系统管理员或数据库管理员负责进展,在完成故障分析后确认需要进展恢复操作后,再由相应的管理员提交书面故障分析报告。
Ø制定恢复计划
灾备系统管理员在收到故障分析报告后应与相应管理员一起制定详细的恢复计划,包括恢复的内容、恢复的时间、恢复的操作步骤、恢复对应用造成的影响等,最后形成一个书面的恢复计划。
灾备系统管理员应将故障分析报告与恢复计划一起提交到相应的主管领导审批。
主管领导应确认恢复对生产造成的影响,在批准执行恢复前应与有关部门进展沟通确认后,通知有关部门进展恢复前的准备工作。
Ø恢复操作
进展恢复操作前,灾备系统管理员与相应管理员应再次确认恢复计划的可行性与可能会造成的后果,并对现有的备份数据作相应的备份,以防止在恢复的过程中因为难以预料的意外引发致命的错误,确认后便可着手进展恢复操作。
在进展恢复操作时应将整个执行过程做详细的记录并备案。
Ø恢复后的操作
完成恢复后应测试恢复的结果,测试成功后,再对恢复后的业务进展相应的备份。
完成后,将执行恢复操作的管理员、恢复操作的时间、过程、完成的状况等形成书面报告,报给有关领导进展审批。
审批后的恢复报告应与故障分析报告、恢复计划、恢复操作报告一起进展存档。
三、方案特色
XXX备份容灾方案使数据、应用、系统得到统一保护,保证数据丢失时高可靠的恢复性,还为关键应用服务器提供业务持续性容灾,保证关键应用服务器出现故障后容灾服务器或虚拟平台可进展接收,确保业务的持续性。
3.1备份容灾一体化
Ø支持对XX企业IT系统中所有关键服务器以与服务器进展应用容灾
Ø基于实时备份技术,对各类型数据库与文件系统进展持续保护
Ø支持数据恢复到任意时间点,时间点可以准确的秒级
Ø智能的故障检测机制和服务器灾难接收策略,可有效的保证关键业务持续性、接收后数据恢复的一致性
Ø支持故障演习,管理员可随时验证容灾数据的有效性和容灾服务器的可靠性
Ø支持对文件系统的持续保护
所有服务器和PC的操作系统以与数据均集中备份到统一的XXX备份存储柜上,一旦服务器或PC环境崩溃,可通过灾难恢复、数据恢复等措施迅速复原到工作状态,相对于手工恢复而言,其效率提高95%,可将损失平均减少72%。
作为最优的备份、容灾、存储一体化解决方案,具有面向异构环境、异构平台、异构应用的统一备份保护,实现对服务器的全面数据保护;支持基于CDP应用容灾,为核心服务器提供接近于0的RPO和RTO保护应用;无需改变原有网络架构,无需新购硬件,既减少投资浪费又提供完整可扩展的解决方案。
3.2功能强大,简单易用
Ø采用All-in-One-Web,在一个Web界面里,管理存储资源、虚拟化容灾服务器、备份计划、实时复制策略和灾难恢复接收计划
Ø单一用户登录可实现数据保护和应用容灾的统一配置
Ø集成化管理可进一步将容灾策略、备份策略相结合,获得最优数据保护和应用容灾效果
Ø全局介质管理,包括介质与介质上数据的删除、介质信息、空间大小的修改等
Ø提供服务器自我修复功能,当出现意外中止、产生死锁,可自动修复到工作状态,减少管理员对灾备系统的干预
Ø提供灾备系统的各项状态的报表数据,并对日志、执行历史、介质空间等信息进展分析,为用户优化备份策略提供参考
Ø简化管理员的操作,支持数据集中备份
3.2.2支持多类型客户端
XXX备份软件为您提供普通型、后台型和安全型客户端,分别适用于集中备份、强制备份和安全备份策略
Ø普通型客户端:
在管理授权后可管理有权限的备份、恢复任务,管理员也可对其进展主动备份管理
Ø后台型客户端:
客户端在不知情的情况下,管理员主动备份客户端数据,强制备份,无需告知客户端
Ø安全型客户端:
管理员在无授权情况下,无法对该类型客户端进展备份和恢复,无权查看安全性客户端数据内容
Ø集中备份时,可以通过集中策略、计划、多客户端进展统一的网络环境保护
对冗余数据进展清理,精简数据传输量,减少数据传输时间,极大提高了数据传输效率,降低了备份任务对带宽的要求;同时,节省了大量磁盘空间,充分保护了用户的投资。
3.2.4绿色节能,更低的投入
XXX备份存储柜作为一体化的备份设备,初始化本钱大大降低,性能加速并且只需一个厂家提供全程产品维护,消耗维护时间和维护本钱也将更低,绿色节能技术进一步降低电力消耗本钱和冷却本钱。
3.3安全备份,备份即安全
Ø强身份认证备份
与USB令牌、数字证书、指纹等身份认证方式结合,只有通过认证后方可访问和恢复客户端计算机的数据与已备份数据。
Ø安全存储
客户端经过USB令牌认证后,其备份的数据使用USB令牌中保管的密钥加密整个备份集,并存储在介质服务器端。
在打开备份集进展恢复时,只有通过对应USB令牌认证后方可解密数据,即使存储藏份数据的介质丢失,也无须担心泄密。
XXX备份软件提供基于企业审计管理员的灾备系统审计功能,通过此功能,可以了解更多信息:
Ø安全审计:
可以通过报表审计企业的数据保护情况;
Ø行为审计:
通过日志审计用户的行为〔管理员和普通用户〕;
Ø备份审计:
通过恢复浏览审计备份数据的内容。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 方案设计