村镇银行网上银行业务运行应急预案和业务连续性计划.docx
- 文档编号:8933517
- 上传时间:2023-05-16
- 格式:DOCX
- 页数:16
- 大小:21.85KB
村镇银行网上银行业务运行应急预案和业务连续性计划.docx
《村镇银行网上银行业务运行应急预案和业务连续性计划.docx》由会员分享,可在线阅读,更多相关《村镇银行网上银行业务运行应急预案和业务连续性计划.docx(16页珍藏版)》请在冰点文库上搜索。
村镇银行网上银行业务运行应急预案和业务连续性计划
****村镇银行网上银行业务运行应急预案和业务连续性计划
****村镇银行
第一章总则
一、目标及适用范围
为了提高****村镇银行网上银行(以下简称网银)系统应对运行故障和突发事件的处置能力,防范结算风险,保障网上银行业务的连续性处理和社会资金的安全,依据中国人民银行《网上银行业务管理暂行办法》、银监会《电子银行业务管理办法》及《****计算机系统突发事件应急处理流程》等制度,制定本预案,以避免由于自然及人为因素造成对系统的影响,导致系统服务中断或造成资源损失,并降低灾难恢复时可能造成的损失。
本计划适用范围包括网银业务平台所有系统运行的软硬件设备、虚拟资源、相关管理制度、相关组织机构及人员。
二、处置原则
(一)业务连续性原则
网银系统进行危机处置时,应采取积极有效的措施,保障网银业务的连续性处理。
(二)系统不间断原则
网银系统应建立灾难备份机制,发生突发事件时,应按规定程序尽快恢复系统,保障网银系统的不间断运行。
(三)数据完整性原则
网银系统危机处置时,应尽快查找丢失的网银数据,确保数据的完整性和社会资金安全。
(四)可操作性原则
网银系统危机处置要具有可操作性。
(五)快速反应原则
发生异常情况和突发事件时,应做到早报告早处理,及时组织有关人员在最短时间内排查故障。
第二章组织架构和职责分工
一、信息科技管理委员会
信息科技管理委员会主任由××担任,成员由×××组成,负责审批网银业务持续性计划及应急预案,审核网银应急工作组提交的重大事件处理方案。
二、网银系统突发事件应急工作组
网银系统突发事件应急工作组由应急领导小组、应急执行小组、支持保障小组组成。
(一)应急领导小组
应急领导小组组长为××领导,成员由**组成,以及××公司、CMCA相关人员组成。
应急领导小组的工作职责:
负责网银系统突发事件的应急指挥、组织协调和过程控制;明确新闻发布人,授权其在应急过程中统一对外信息发布口径;宣布重大应急响应状态的降级或解除;向理事会报告应急处置进展情况和总结报告。
(二)应急执行小组
应急执行小组组长为区联社电子银行管理部门负责人,成员包括科技中心、电子银行部、计财部、会计部、信贷管理部、审计部相关业务人员,以及公司、CMCA相关人员。
应急执行小组工作职责:
◆启动应急预案
启动网银系统突发事件相应的业务应急预案,对突发事件进行处置,确保业务的持续性;对网银系统突发事件业务影响情况进行分析和评估;收集分析网银系统突发事件应急处置过程中的数据信息和日志;向应急领导小组报告应急处置进展情况和事态发展情况。
◆应急事件处理
负责详细记录并分析应急事件,在技术人员及其他资源的协助下,提出技术解决方案,并负责向信息科技管理委员会解释应急事件及方案;当技术解决方案通过信息科技管理委员会审核后,由应急执行小组负责方案的实施,并在实施结束后,提交“应急事件处理报告”。
◆业务持续性计划及应急预案优化
负责每个月针对当月及以往产生的应急事件实施报告,对现有的业务持续性计划及应急预案进行评估,当发现存在风险时,需要进行相应的优化;优化后的业务持续性计划及应急预案必须提交信息科技管理委员会审核,并按照审核通过后的新计划进行实施。
(三)支持保障小组
支持保障小组组长为区联社办公室负责人,成员××组成。
支持保障小组工作职责:
提供应急所需人力和物力等资源保障;做好对受影响客户的解释和安抚工作;做好秩序维护、安全保障、法律咨询和支援等工作;建立与电力、通讯、公安和消防等相关外部机构的应急协调机制和应急联动机制;其他为降低事件负面影响或损失提供的应急支持保障等。
三、其他资源
其他资源包括应急事件处理中所需的公共资源、系统软/硬件厂商、网络供应商等。
第三章应急事件定义及响应流程
一、应急事件级别分类
(一)一级
1、生产系统遭到灾难性毁灭,无法提供服务;
2、核心业务设施(如系统核心中间件服务器、WEB服务器、数据库服务器及其他业务主机、核心网络设备、磁盘存储系统设备、网络线路等)发生故障或性能严重下降,导致所支持的重要应用系统服务出现响应速度异常、业务中断、无法对外提供服务,持续时间超过半小时的;
3、非核心业务设施(如RA服务器、签名验签服务器及其他非核心主机、热备冗余主机、非核心硬件网络设备等)发生故障或性能下降,导致部分所支持的应用系统服务功能及性能受到影响,持续时间超过1小时的;
4、非核心其他设施(如IDS设备、备份系统、知识库系统、网银托管系统监控平台、处于等待状态的灾备系统等)发生故障,或者外围设备出现故障,但不会对系统业务产生影响,时间超过4小时的。
(二)二级
1、核心业务设施(如系统核心中间件服务器、WEB服务器、数据库服务器及其他业务主机、核心网络设备、磁盘存储系统设备、网络线路等)发生故障或性能严重下降,导致所支持的重要应用系统服务出现响应速度异常、业务中断、无法对外提供服务,持续时间在半小时以内的;
2、非核心业务设施(如RA服务器、签名验签服务器及其他非核心主机、热备冗余主机、非核心硬件网络设备等)发生故障或性能下降,导致部分所支持的应用系统服务功能及性能受到影响,持续时间在1小时以内的;
3、非核心其他设施(如IDS设备、备份系统、知识库系统、网银托管系统监控平台、处于等待状态的灾备系统等)发生故障,或者外围设备出现故障,但不会对系统业务产生影响,时间在1至4小时以内的。
(三)三级
1、非核心业务设施(如RA服务器、签名验签服务器及其他非核心主机、热备冗余主机、非核心硬件网络设备等)发生故障或性能下降,导致部分所支持的应用系统服务功能及性能受到影响,持续时间在半小时以内的;
2、非核心其他设施(如IDS设备、备份系统、知识库系统、网银托管系统监控平台、处于等待状态的灾备系统等)发生故障,或者外围设备出现故障,但不会对系统业务产生影响,时间在半小时至1小时以内的。
(四)四级
非核心其他设施(如IDS设备、备份系统、知识库系统、网银托管系统监控平台、处于等待状态的灾备系统等)发生故障,或者外围设备出现故障,但不会对系统业务产生影响,时间在半小时以内的。
二、应急事件响应流程
◆为保证系统安全,运维人员在机房进行7*24小时值守,对网银系统服务平台运行情况实施不间断监控。
◆应急工作组成员保持7*24小时开机,当出现紧急事件时,在第一时间赶赴现场,并协调相关资源,启动应急预案。
◆各级别事件处理流程:
1、一级
(1)一级事件需要由信息科技管理委员会全体成员参与讨论并审核技术解决方案;
(2)事件处理完成后,由应急执行小组提交“应急事件处理报告”,信息科技管理委员会审核;
(3)由应急执行小组针对本次事件的处理过程,对业务持续性计划与应急预案进行评估,如需优化,则在优化后,提交信息科技管理委员会审核;
(4)根据“应急事件处理报告”,将本次事件的处理过程录入知识库系统。
2、二级
(1)二级事件需要由应急领导小组审核技术解决方案;
(2)事件处理完成后,由应急执行小组提交“应急事件处理报告”,应急领导小组审核后报信息科技管理委员会;
(3)由应急执行小组针对本次事件的处理过程,对业务持续性计划与应急预案进行评估,如需优化,则在优化后,提交信息科技管理委员会审核;
(4)根据“应急事件处理报告”,将本次事件的处理过程录入知识库系统。
3、三级
(1)三级事件需要由应急领导小组审核技术解决方案;
(2)事件处理完成后,由应急执行小组提交“应急事件处理报告”,应急领导小组审核后报信息科技管理委员会;
(3)由应急执行小组针对本次事件的处理过程,对业务持续性计划与应急预案进行评估,如需优化,则在优化后,提交信息科技管理委员会审核;
(4)根据“应急事件处理报告”,将本次事件的处理过程录入知识库系统。
4、四级
(1)四级事件需要由应急执行小组中的运营主管或以上级别人员审核技术解决方案;
(2)事件处理完成后,由应急执行小组向应急领导小组提交“应急事件处理报告”;
(3)由应急执行小组针对本次事件的处理过程,对业务持续性计划与应急预案进行评估,如需优化,则在优化后,提交信息科技管理委员会审核;
(4)根据“应急事件处理报告”,将本次事件的处理过程录入知识库系统。
三、业务影响的对策
为防止意外事件对网银平台业务的影响,制定并实施多个切实有效的解决方案。
(1)对网银服务平台进行7*24小时不间断的系统监控,保证在出现灾难或业务受到影响时能够立即做出反应。
(2)生产系统上所有的服务器、网络设备和局域网络通讯线路均采用双系统热备,当发生任意单点故障时可实现自动切换,不会对业务有影响;如果两套系统同时发生故障,CMCA运行部紧急通知农信银,由农信银提供业务恢复的计划,经信息科技管理委员会同意后执行。
(3)为应对黑客入侵,在生产系统上安装有“入侵检测”软件,当其发现有恶意攻击时会立即切断此网络连接,保护生产系统。
(4)为保证系统正常运行,由技术员根据每个月机器运行日志采取相应的优化措施。
(5)CMCA自备有柴油发电机和UPS电源,其中UPS电源采用双路互为备份机制。
当外部供电中断时,由人工启动柴油发电机继续为生产系统供电,柴油储备可至少使用24小时。
(6)生产系统的机房采用封闭式结构,外部包有防电磁信号泄漏层,内部安装有门禁、消防、闭路摄像、空调等物理环境控制系统,CMCA还制定并实施了区域授权访问控制制度,核心区域需至少两人在场才能同时进入,以上措施能够有效应对水灾、火灾以及非法闯入者的破坏。
四、应急事件报告
网上银行系统发生异常情况或突发事件后,现场人员应第一时间向应急执行小组报告,应急执行小组立即向应急领导小组报告。
报告人应客观、全面、具体地报告情况,包括事件发生的时间、地点、事件起因、经过、影响程度、社会反应等。
三级以上事件由应急领导小组报信息科技管理委员会,并按《****农村信用合作社突发事件总体应急预案》有关规定,统一由区联社突发事件应急处置领导小组办公室执行重大突发事件报告制度,在规定时间内向****人民政府、****银监局、人民银行****中心支行等有关单位报告。
第四章应急预案
一、意外灾害应急预案
(一)工作目标
在灾害及影响时间较长的情况下,立即启用灾备系统接管生产服务。
抢救重要资料和设备,在灾情结束后使用备份数据恢复生产系统。
(二)工作程序
1、值守人员发现灾情后,应立即向应急工作组、相关公共单位汇报情况。
2、应急执行小组在接到汇报后,在安全的情况下,立即赶赴现场,评估灾难损失,并联系技术人员及各厂商服务支持人员,提出灾难恢复方案。
3、当灾情控制后,应急执行小组立即开展系统恢复工作。
检查系统的损坏程度,针对下列具体情况采取相应措施:
(1)利用冗余设备进行系统恢复,或联系设备供应商提供备用设备。
(2)出现线路故障,立即联系网络供应商启用临时线路。
(3)运行平台中的所有主机均采用双机热备,当主节点出现故障时,由备节点接管服务。
如果主备节点均受到损毁,则立即联系设备供应商提供备用主机。
(4)当出现盘阵损毁,导致生产数据无法恢复时,应立即联系设备供应商提供备用设备,并使用灾备系统中实时备份的数据,恢复生产系统数据。
4、在确定短期内无法恢复生产系统的情况下,由应急执行小组启用灾备系统,接管生产服务。
5、对系统进行各项服务测试,在测试结果正常的情况下,对外恢复系统使用。
6、应急执行小组根据处理过程,提交“应急事件处理报告”,通过审核后,将相关信息录入知识库系统。
7、针对处理过程,对应急预案相关内容进行评估及优化。
二、电力中断应急预案
(一)工作目标
保证生产系统不受影响。
在出现主供电线路电力中断时,及时启用备用供电。
自备有柴油发电机和UPS电源,其中UPS电源采用双路互为备份机制。
当外部供电中断时,由人工启动柴油发电机继续为生产系统供电,柴油储备可至少使用24小时。
(二)工作程序
1、值守人员发现主供电线路电力中断时应立即报告,以及时启用备用供电。
2、应急执行小组根据处理过程,提交“应急事件处理报告”,通过审核后,将相关信息录入知识库系统。
3、针对处理过程,对应急预案相关内容进行评估及优化。
三、网络故障应急预案
(一)工作目标
在最短时间内恢复生产运行。
(二)工作程序
1、运维值守人员会每隔2小时按照系统监控手册,进行网络及主机设备连通性监控。
当出现网络故障时应立即向应急执行小组汇报。
2、应急执行小组立即赶赴现场,并与网络设备供应商、网络线路供应商取得联系,进行故障分析排查,并提出解决方案
3、如果超过2小时仍无法恢复生产,则由应急执行小组提交申请,启用灾备系统接管生产系统。
4、当生产系统得到恢复后,由应急执行小组进行数据完整性校验。
在通过校验后,将应用切换至生产系统。
5、应急执行小组根据处理过程,提交“应急事件处理报告”,通过审核后,将相关信息录入知识库系统。
6、针对处理过程,对应急预案相关内容进行评估及优化。
(三)故障种类及处理方法
1、网络连接异常
(1)问题现象
A、当网络线路或设备出现故障时,会导致服务器、设备无法连接,相应的应用系统运行时,出现无法连接的错误。
如:
提示页面不存在等异常。
B、网络线路故障时,也可能导致备份失败。
(2)故障分析
A、网络线路异常会导致网络连接异常。
B、网络设备接口异常会导致接入该接口的设备无法连接。
C、服务器运行状态异常可能导致该服务器无法连接。
D、网络设备故障会导致连接到该网络设备的服务器无法连接。
(3)解决方法
①确认异常
将监控客户端连接到相应网段交换机后,应根据各设备IP地址,进行PING操作,观察设备是否能正常连接。
②异常排查
A、当出现设备无法PING通的情况时,进行相应的排查。
B、当连接到交换机、路由器上的所有服务器无法连接时,可判断为交换机、路由器设备异常。
重启交换机、路由器。
当重启后,仍然出现所有服务器无法连接时,需要联系应急技术支持工程师、网络设备厂商进行进一步的问题分析。
C、所有连接到该网络设备的服务器中,有部分可连接,部分不可连接的情况时,判断可能是由于接口异常或服务器异常的情况造成的。
如果更换服务器的接入接口后,仍无法连接,则说明服务器运行状态异常。
如果判断为接口异常,则暂时更换接口以保证服务器可正常连接。
如果判断为服务器状态异常,则应通过控制台连接服务器,查看服务器状态。
如果服务器已停止运行,对于PCSERVER,则进行服务器启动。
如果是小机,则需要联系服务器厂商进行问题分析、排查。
2、专线网络中断
(1)问题现象
A、专线网络中断时,会导致公网及会员行用户无法登录系统,但在内网可正常登录系统。
B、专线网络中断时通过路由检测会发现从会员行无法正常路由至网银托管服务平台路由器。
(2)故障分析
该故障是由于电信/移动提供的专线网络故障引起的。
(3)解决方法
联系电信/移动网络供应商,进行网络故障排查,在必要的情况下,启动备用专线网络。
四、硬件故障应急预案
(一)工作目标
在最短时间内恢复生产运行。
(二)工作程序
1、当服务器硬件设备出现故障,导致无法连接时,值守人员立即联系应急执行小组。
2、应急执行小组立即赶赴现场,并与服务器及硬件设备供应商取得联系,进行故障分析排查,并提出解决方案。
3、如果超过2小时仍无法恢复生产,则由应急执行小组提交申请,启用灾备系统接管生产。
4、当生产系统得到恢复后,由应急执行小组进行数据完整性校验。
在通过校验后,将应用切换至生产系统。
5、应急执行小组根据处理过程,提交“应急事件处理报告”,通过审核后,将相关信息录入知识库系统。
6、针对处理过程,对应急预案相关内容进行评估及优化。
(三)故障种类及处理方法
1、主机无法登录
(1)现象描述:
通过telnet、控制台均无法登录主机;通过切换交换机接口测试,已排除交换机接口故障。
(2)故障分析:
出现非网络原因造成的主机无法登录,一般是由于操作系统损坏、硬件故障等原因造成的。
(3)应急措施:
A、对于PCSERVER,首先会进行服务器重启。
当无法正常启动服务器时,将立即与应急技术支持人员、服务器厂商支持人员联系,进行故障分析。
B、对于P550Q服务器,将立即与应急技术支持人员、服务器厂商支持人员联系,进行故障分析。
五、系统软件故障应急预案
(一)工作目标
在最短时间内恢复生产运行。
(二)工作程序
1、当系统软件出现性能异常或故障时,值守人员应立即联系应急执行小组。
2、应急执行小组立即赶赴现场,并与系统软件技术支持人员取得联系,进行故障分析排查,并提出解决方案。
3、如果超过2小时仍无法恢复生产,则由应急执行小组提交申请,启用灾备系统接管生产。
4、当生产系统得到恢复后,由应急执行小组进行数据完整性校验。
在通过校验后,将应用切换至生产系统。
5、应急执行小组根据处理过程,提交“应急事件处理报告”,通过审核后,将相关信息录入知识库系统。
6、针对处理过程,对应急预案相关内容进行评估及优化。
(三)故障种类及处理方法
系统软件主要故障种类为:
CPU利用率异常、内存异常、IO异常、磁盘空间不足等。
六、应用软件故障应急预案
(一)工作目标
在最短时间内恢复生产运行。
(二)工作程序
1、当应用软件出现性能异常或故障时,值守人员立即联系应急执行小组。
2、应急执行小组立即赶赴现场,并与应用软件厂商技术支持人员及农信银取得联系,进行故障分析排查,并提出解决方案。
3、如果超过2小时仍无法恢复生产,则由应急执行小组提交申请,启用灾备系统接管生产。
4、当生产系统得到恢复后,由应急执行小组进行数据完整性校验。
在通过校验后,将应用切换至生产系统。
5、应急执行小组根据处理过程,提交“应急事件处理报告”,通过审核后,将相关信息录入知识库系统。
6、针对处理过程,对应急预案相关内容进行评估及优化。
(三)故障种类及处理方法
数据库异常包括:
归档日志空间不足、数据库对象失效、数据库无法连接、ORA-01555:
snapshottooold错误以及数据库性能异常等。
中间件异常包括:
被管服务器无法连接、管理服务器无法连接、内存溢出、RA服务器异常等。
网银托管服务平台运行异常包括:
系统登录异常、数据异常等。
七、病毒感染应急预案
(一)工作目标
在最短时间内恢复生产运行。
(二)工作程序
1、当值守人员发现病毒警报时,立即向应急执行小组汇报。
2、应急执行小组立即赶赴现场,并对染毒的主机和网络进行隔离,并使用备用机替换染毒的主机。
3、对染毒的主机及网络进行病毒查杀。
4、应急执行小组根据处理过程,提交“应急事件处理报告”,通过审核后,将相关信息录入知识库系统。
5、针对处理过程,对应急预案相关内容进行评估及优化。
八、非法入侵应急预案
(一)工作目标
消除造成的威胁,避免和减少损失,并优化入侵检测及拦截策略。
(二)工作程序
1、发现非法入侵后,立即向应急执行小组汇报情况。
2、应急执行小组根据当前的入侵检测情况,估计可能的损失,判断是否需要将系统离线,同时联系技术支持人员、安全产品厂商技术人员及安全技术顾问。
3、根据入侵威胁的来源和方式,由安全工程师、安全技术顾问、安全产品厂商相关人员协同确定安全优化策略,实施后再恢复系统的对外运行。
4、应急执行小组根据处理过程,提交“应急事件处理报告”,通过审核后,将相关信息录入知识库系统。
5、针对处理过程,对应急预案相关内容进行评估及优化。
第五章测试演练
通过合理、完善的测试,可以及时发现应急预案中存在的不足,并进行解决。
同时,为保证在出现紧急事件时,各小组成员能够高效、准确地按照应急预案进行方案实施,需要定期对应急预案的精确性、有效性及各小组的配合过程,进行有计划的测试与演练。
一、测试内容与流程
(一)测试内容
应急预案测试与演练包含以下部分内容:
1、应急工作组各小组间的配合协调情况。
2、故障解决方案的准确性。
3、进行生产系统灾难恢复后的正确性与运行效率检验。
4、使用灾备系统接管系统服务后的正确性与运行效率。
5、与各会员行间的协调情况。
6、外部资源的协调情况。
(二)测试流程
1、由应急执行小组制定测试计划、测试时间安排,并提交应急领导小组、信息科技管理委员会审核。
测试计划涵盖应急预案中涉及到的各项内容。
2、由各小组按照测试计划、测试时间安排进行测试演练,并提交测试演练报告。
3、针对测试演练报告,由各小组评估测试过程中存在的问题与应急预案的缺陷,并由应急执行小组进行方案优化。
二、测试的分类
(一)模拟演练
模拟演练是在虚拟环境及测试环境上进行。
通过模拟演练,可以最大程度地测试各灾难场景的应急预案实施过程。
在模拟演练的过程中,需要按照实际情况,设定场景,并由各小组按照应急预案,在虚拟环境及测试环境上,进行场景的仿真演习。
模拟演练至少每年进行一次。
(二)实战演练
实战演练的目的是在生产系统上测试系统的容灾能力及灾备切换能力。
进行实战演练前,必须充分进行风险评估,并在保证不影响系统运行的情况下进行。
第六章业务培训和对外宣传
一、业务培训
(一)应急工作业务培训
为使应急工作组的各成员都充分掌握业务持续性计划及应急预案,保证应急预案能够顺利的执行,每年至少进行一次相关业务培训,培训对象为应急工作组成员及相关运维人员。
(二)网点业务培训
为保证网银业务持续性及应急预案的顺利实施,每年应定期对柜员开展网银业务培训,培训内容包括网银业务相关管理制度、操作规程、日常故障处理流程等,确保柜员严格按操作规程办理网银业务,不断提高业务操作水平。
二、客户风险教育
通过多种渠道加大对安全使用网银等相关知识的宣传与教育,使客户能够正确使用网银,提高操作水平,减少因操作不当引起的失误。
具体宣传教育形式包括发放网银业务知识手册、操作说明书、在网站主页提供使用帮助等。
第七章附则
一、灾难宣告与信息发布
由****村镇银行统一对外进行灾难宣告和发布有关信息。
辖区各级非经授权不能进行灾难宣告和发布有关信息。
二、预案管理与更新
(一)本预案应根据系统或业务升级或变更后适时评审、更新,必要时对预案进行重新评估和修订,不断对处置预案进行完善。
(二)本预案由信息科技管理委员会负责评审、更新。
三、组织、解释部门
本预案由信息科技管理委员会负责解释并组织实施。
四、预案生效
本预案自宣布之日起施行。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 村镇 银行 网上银行 业务 运行 应急 预案 连续性 计划