机房环境安全事件应急处置专项预案剖析.docx
- 文档编号:13739781
- 上传时间:2023-06-16
- 格式:DOCX
- 页数:8
- 大小:133.20KB
机房环境安全事件应急处置专项预案剖析.docx
《机房环境安全事件应急处置专项预案剖析.docx》由会员分享,可在线阅读,更多相关《机房环境安全事件应急处置专项预案剖析.docx(8页珍藏版)》请在冰点文库上搜索。
机房环境安全事件应急处置专项预案剖析
机房环境安全事件专项应急预案
预案编号
110000-01-01-002-V1.0
预案名称
机房环境安全事件专项应急预案
版本
V1.0
适用等级
、
、
、
涉及部门
信息中心、机关服务中心
涉及人员及联系方法
应急处置基本原则:
机房环境安全事件应急处置基本原则是:
保障关键系统运行及业务系统数据安全、采取应急措施、及时恢复、预防为主。
机房环境主要由电力系统、制冷系统、监控系统组成,在日常工作中,常遇到的状况主要是以上系统出现故障或发生紧急情况(例如大范围停电、设备故障等)。
为保证在出现紧急情况时,能够及时有效等排除故障,保障系统正常运转或将业务数据安全保存,特制定以下基本原则:
1、保障关键系统运行及业务系统数据安全
机房环境在出现市电故障的情况下,应保证线路能及时切换到备用电路,并自动报警给机房管理人员、安全管理人员及相关主管领导,确保业务不被中断,如果主备用电路均出现故障,确保能自动启用备用电源,备用电源(UPS)的供电时间不少于市电一般恢复时间的两倍,在备用电源无法满足全部业务供电需求时,根据情况停用非关键系统,保障关键系统运行。
具体措施见《减压降温方案》。
机房环境在出现制冷系统故障的情况下,应保证制冷系统的冗余设备正常运转,并自动将故障情况自动报警给机房管理人员、安全管理人员,确保业务系统不受故障影响。
如果机房内制冷系统的冗余设备无法保证机房内温湿度在正常范围(22-24度)内,自动通过环境监控系统报警给机房管理人员、安全管理人员及相关主管领导,提示机房环境处于非正常状态。
机房管理人员及时采取应急措施。
2、采取应急措施
机房环境在出现市电故障的情况下,将不间断电源最短供电时间(机房内有多台不间断电源,以供电最短时间为依据)和故障恢复时间上报主管领导,提供决策依据。
同时,为延长不间断电源供电时间,能够及时将重要数据进行备份,平稳关闭业务系统,应采取减压降温处理措施,按主机设备重要性优先级由低到高的顺序,依次进行关闭。
具体措施见《减压降温方案》
机房环境在出现制冷系统故障的情况下,冗余设备无法保证温湿度在正常范围内时,应采取减压降温处理措施,按主机设备重要性优先级由低到高的顺序,依次进行关闭,同时,确保机房通风,采用辅助降温措施,如电风扇等,对机房进行降温。
具体措施见《减压降温方案》。
3、及时恢复
在出现市电故障的情况下,及时与供电部门联系,随时了解供电恢复的预期时间,并要求电力部门提供必要的临时供电支持。
在出现制冷系统故障的情况下,冗余设备无法保证温湿度在正常范围内时,应关闭非关键系统,确保通风,并采取辅助措施和设备对机房进行降温,并要求空调维修厂商或相关部门及时通报故障修复预期时间。
4、预防为主
应要求供电单位和UPS电源供应商等定期进行主备电力线路和UPS设备检查,及时发现线路故障或备用电源故障隐患,要求空调维护厂商每月对制冷系统进行巡检,及时排除故障隐患,确保紧急联系部门和人员信息真实可用;保证机房内有辅助降温设备储备;适时进行电力故障应急演练。
事件类型及危害程度分析:
机房环境安全事件属于综合类安全事件,涉及UPS可用性以及机房温度等指标,该类事件造成的危害主要有以下几方面:
UPS可用性:
1、当市电供应故障时间较短,需要切换到备份电路或UPS时,可能造成电压不稳,将影响部分设备性能,甚至可能造成部分设备故障;
2、当市电供应故障时间较长,超过UPS可供电时间和范围时,将造成大面积断网,导致业务中断,造成更大影响和损失。
机房温度过高:
1、由于电力或其他因素导致机房空调不可用后,由于设备持续散热导致机房温度持续升高,最后可能导致机柜温度过高和设备异常宕机。
事件级别判定
◆从影响时间和范围而言:
业务时间预计或实际恢复时间低于1小时超过30分钟、非业务时间低于24小时超过8小时的,并且仅对市局业务造成影响的,属于
级事件;
业务时间预计或实际恢复时间低于4小时超过1小时、非业务时间低于48小时超过24小时的,且仅对市局业务造成影响的;或者业务时间预计或实际恢复时间低于1小时超过30分钟、非业务时间低于24小时超过8小时的,且对市局及下属区县局业务造成影响的,属于
级事件;
业务时间预计或实际恢复时间低于8小时超过4小时、非业务时间低于72小时超过48小时的,且仅对市局业务造成影响的;或者业务时间预计或实际恢复时间低于4小时超过1小时、非业务时间低于48小时超过24小时的,且对市局及下属区县局业务造成影响的,属于
级事件。
业务时间预计或实际恢复时间超过8小时、非业务时间超过72小时的,且对市局业务造成影响的;或者业务时间预计或实际恢复时间超过4小时、非业务时间超过48小时的,且对市局及下属区县局税收业务造成影响的,属于
级事件。
◆从影响重要系统严重程度而言:
故障造成部分业务的服务性能受到短暂影响,且影响范围在北京市局范围内,属于
级事件;
故障造成部分非实时业务中断,影响范围在市局及部分区县局,属于
级事件;
故障造成部分实时业务中断,影响范围在市局及部分区县局,属于
级事件。
故障造成大面积业务中断,影响全市税收业务正常秩序,属于
级事件。
预防与预警
采用双路供电、UPS,部署机房环境安全监控系统,部署机房辅助降温设施;
识别关键系统,备份关键数据,确定系统关开机顺序和方法,制定《减压降温方案》,并根据实际情况进行更新。
预案启动条件
信息机房市电供应系统发生故障,且备用电路无法正常切换,出现机房断电和空调停机安全事件时,启用本预案。
应急流程
预案流程说明(此流程主要用于市电故障)
1、由于市电故障,导致机房断电和空调停机,应急处置开始并通知相关人员到现场;
2、联系机关服务中心询问停电原因,并在后续的应急处理过程中保持与服务中心的联系,获取最新信息;
3、向领导汇报机房断电、空调停机以及服务中心反馈信息;
4、自动切换到UPS供电,如果出现部分UPS不能切换的情况,手工切换到UPS供电,并联系UPS厂商排除不能自动切换或部分无法正常运行UPS的故障;
5、根据UPS支持时间、预计电力恢复时间及机房温度决定是否启动机房减压降温措施,如果由于空调停机导致机房温度快速上升、且无法预计电力恢复时间时,由领导决策,及时执行《减压降温方案》;如果和服务中心确认电力能在机房温度没有快速上升前(经验值为10分钟)恢复供应,可不进行后续应急处置;
6、上交《机房减压降温处置审批单》,情况紧急时,可先口头汇报确认(事后补文档),确认可执行后,关闭非关键系统,开启通风口,布置并开启机房降温辅助设施(如电风扇),若在此过程中电力恢复,按照原关机顺序进行开机操作;
7、在电力未恢复、供电局还处在事件调查阶段且UPS支持时间不足情况下,需要提前对核心数据进行备份并进行紧急关机处置操作,最后关闭小型机、相关存储设备和网络设备,若在此过程中电力恢复,按照原关机顺序进行开机操作;
8、在等待供电恢复期间,需要协调相关厂商工程师到场,做好供电恢复后开机准备工作;
9、供电恢复后,执行开机流程,确保全部主机、网络设备顺利开启后,结束应急响应,向领导汇报处置过程,形成事故分析报告并归档。
应急处置过程需要的时间
1、机房断电和自动切换UPS供电设备需要的时间忽略不计;
2、机房值班人员和安全责任人员接到报警,紧急到达现场需要3分钟;
3、与服务中心联系,询问停电原因并向领导汇报需要5分钟;
4、发现UPS无法完成自动切换后,手工切换需要花费1分钟;
5、关闭非关键系统,开启通风口,布置机房降温设施需要10分钟;
6、进行核心数据备份和紧急关机操作需要34分钟;
7、关闭网络设备、存储设备需要40分钟;
8、协调厂商工程师到场需要40分钟;
9、全部应用系统和设备开机需要至少2小时。
整个应急处置时间预计至少需要4小时。
应急处置结果
1、在市电供应恢复前,UPS支持时间范围内,确保机房温度保持在合理范围内,保证在UPS电力耗尽前备份核心数据并安全关闭所有系统。
2、执行紧急停开机顺序,确保全部应用系统和设备安全有序地关闭和开启。
演练要求
1、熟悉服务中心的联系方式;
2、熟悉UPS状态检查,能预估UPS支撑时间;
3、熟悉空调状态检查,以及机房降温辅助措施方法;
4、制定机房减压降温方案,确定合理停开机顺序,熟悉核心数据库备份方法;
5、演练结束形成演练总结报告。
应急物资储备清单
1、电风扇等降温辅助设施;
2、协调相关厂商工程师和总部技术支持。
相关文档:
《减压降温方案》
《机房减压降温处置审批单》
备注:
无
编制人
审批人
分发范围
内部
机房减压降温处置审批单
申请日期
申请部门
联系人
联系电话
处置类型
□关闭开发测试环境□紧急手动关闭服务器
□保留最小环境□全部关闭
处
置
内
容
(说明需求背景、具体操作,以及希望达到的目的)
拟
订
计
划
(进行处置的时间段、处置人,及需要进行处置的设备列表)
主管审批意见
(
备注
减压降温方案
本方案适用于市电中断及机房内空调出现故障时,机房内温度升高或不间断电源转入后备电池供电状态,为保证机房内设备可在预计时间内正常关闭,并完成必要的数据备份,特制定此方案。
我局不间断电源共有4台,总容量360K,市电中断后,后备电池最短可支持55分钟。
空调8台,南北机房各四台。
为核心设备延长供电时间,保证关键业务可在预计时间内运转正常,进行必要的数据备份后正常关闭,特采取降温措施,按照主机设备重要性优先级由低到高的顺序,依次关闭设备,减小电力负载,并将机房温度保持在合理范围内。
减压降温方案分为三个步骤,当故障发生后,向领导提交《机房减压降温处置审批单》,按照《关闭开发测试设备清单》关闭设备,并将预先准备的风扇放置在指定位置为核心设备降温(使用不间断电源为风扇供电)。
当得知故障无法在不间断电源可支持最短时限内修复时,立即向领导汇报,启动第二个步骤,按照《紧急关闭设备清单》关闭相关设备。
进行紧急关闭设备操作时,采用直接关闭服务器电源的方式进行,以便为核心业务的数据备份和关键设备的正常关闭争取时间。
当所有业务数据备份完成后,进入第三个步骤,除《最小环境设备清单》内相关设备外,逐步关闭所有设备,包括服务器、小型机、网络设备和存储。
关机顺序应按照如下原则:
在关闭剩余服务器的同时,可开始关闭小型机分区,在小型机所有分区关闭完成后,关闭网络设备和存储设备。
(《关闭开发测试设备清单》、《最小环境设备清单》、《紧急关闭设备清单》将随着设备的增减及应用系统的变化更新。
)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机房 环境 安全 事件 应急 处置 专项 预案 剖析