在线交流平台应急预案.docx
- 文档编号:9666584
- 上传时间:2023-05-20
- 格式:DOCX
- 页数:21
- 大小:185.61KB
在线交流平台应急预案.docx
《在线交流平台应急预案.docx》由会员分享,可在线阅读,更多相关《在线交流平台应急预案.docx(21页珍藏版)》请在冰点文库上搜索。
在线交流平台应急预案
安信证券股份有限公司
在线交流二期系统应急预案
信息技术部
发布日期:
2014年11月25日
目录
一、应急预案制定说明3
(一)制定目的3
(二)制定依据3
(三)适用范围3
应急处置原则3
二、应急组织架构3
三、系统概述4
(一)业务连续性要求4
(二)系统部署图5
(三)应急预案覆盖示意图5
四、应急处置流程6
(一)信息通报流程6
(二)技术处置流程7
五、技术处置方案9
(一)应急场景分类9
(二)已知场景处置方案9
1.已知应急场景处置信息表10
2.已知场景应急处置技术方案12
1)技术处置方案1:
(ZXJL2-01)在线交流系统故障处理流程12
2)技术处置方案2:
(ZXJL2-002)在线交流系统app程序故障处置方法13
3)技术处置方案3:
(ZXJL2-003)在线交流系统app服务器故障处置方法13
4)技术处置方案4:
(ZXJL2-004)在线交流系统线路故障处置方法14
5)技术处置方案5:
(ZXJL2-005)在线交流系统数据库故障处置方法14
(三)未知场景处置策略15
六、应急所需资料15
(一)故障发布话术15
(二)设备位置信息表15
(三)应急联络通讯录15
(四)信息通报记录表15
(五)技术处置记录表15
七、版本更新记录16
一、应急预案制定说明
(1)制定目的
用于指导在线交流二期系统发生故障后,对故障进行应急处理
(2)制定依据
本预案制定依据《安信证券股份有限公司信息系统应急与容灾管理办法(修订)》。
(3)适用范围
本应急预案启用总体适用范围为在线交流二期系统。
应急处置原则
(1)原则一:
先报告,后处理。
(2)原则二:
先应急,后排障。
(3)原则三:
应急顺序应遵循最大限度减少损失,降低影响面原则。
二、应急组织架构
(一)组织架构说明
在线交流二期系统故障发生后,信息技术部应根据故障情况成立应急工作小组,及时高效地开展应急处置工作。
应急工作小组由信息技术部行政负责人、建设口分管领导、应用支持组负责人、应用支持组运维人员、信息发布岗及其他部门相关人员组成。
(二)组织架构图
(三)职责说明
岗位
职责分工
信息技术部
现场指挥岗
通过指挥,确保应急处置工作依据应急预案的要求有序进行。
处置决策岗*
负责根据现场故障影响及现有资源的情况,进行应急技术处置方案启用的综合决策。
信息通报岗*
根据影响范围必要时通知公司各部门应急处置工作小组成员。
技术处置岗*
进行故障分析、定位并根据决策启用技术处置方案
业务支持
协助进行技术情况的内部通报、影响面分析,对业务问题的解答。
关联部门
风险管理岗
组织安排人员负责IT故障风险报告的收集。
客服中心应急专员
组织安排客服人员统一话术和口径向客户发布故障公告、在线解答客户提出的问题。
分销机构组
通知分支机构做好客户解释工作
营销服务中心
通知分支机构做好客户解释工作
备注:
*标识的岗位为所有应急处置必备岗位。
三、系统概述
(1)业务连续性要求
RTO:
0.5天
RPO:
1天
(2)系统部署图
系统业务流图
(3)应急预案覆盖示意图
四、应急处置流程
(1)信息通报流程
1.流程表
信息通报流程
序号
概述
工作内容
岗位
1)
初次报告
发现问题后,立即向系统负责人口头报告情况。
发现人
系统负责人初步评估,识别为故障后向上级口头报告情况。
系统负责人
向客户服务中心咨询岗,营销服务中心业务岗通报故障情况。
系统负责人
根据故障等级,向信息技术部行政负责人报告
应用支持组组长
2)
持续报告
1、故障时间超过30分钟,向信息技术部安全服务与质量管理岗报告故障信息,报告要素包含:
影响时间、范围、预计恢复时间、最大损失。
2、系统恢复前需每30分钟持续通报。
系统负责人
向所在地证监局报告故障情况。
安全服务与质量管理岗
4)
恢复后报告
内部报告
1、向客户服务中心咨询岗、营销服务中心业务岗通报系统恢复情况。
2、向运行口运行专员系统恢复情况。
3、根据公司制度要求,报告风险管理部《风险即时报告》。
4、若故障时间超过30分钟,需向安全服务与质量管理岗提交《网络与信息安全事件情况报告书》。
系统负责任
监管报告
根据监管要求,向监管部门报告。
安全服务与质量管理岗
2.流程图
(2)技术处置流程
1.流程表
技术处置流程
概述
工作内容
岗位
故障发现
1)事件发现
从监控系统或安信通、电话等渠道获得事件信息反馈,立即告知系统负责人。
发现人
2)故障定位
根据报警信息,初步定位故障环节。
系统负责人A
3)故障上报
根据通报流程,进行故障影响范围、处置建议、预计恢复时间等报告。
系统负责人A
应急响应
4)应急准备
1、应急预案,操作手册等纸质文档准备就绪。
2、应急处置各岗位人员到位,联系开发商人员就绪等准备。
3、机器配件等准备就绪。
系统负责人B
5)应急决策
根据现场收集的信息及所掌握资源,进行技术处置方案决策。
处置方案决策岗
6)应急处置
进行应急处置:
1、已知故障按照已知故障原因应急场景进行处置,直至系统恢复正常。
2、未知故障按照未知故障原因应急场景进行处置,直至系统恢复正常。
系统负责人A
1、协助进行信息持续报告。
2、统计故障影响程度:
故障持续时间、失败转账笔数、失败转账总金额、失败客户数,故障产生单边帐数;向客服中心获取客户投诉人数,投诉涉及金额。
3、为业务部门等提供技术支持。
4、进行关键步骤操作的复核及记录。
系统负责人B
系统恢复
7)故障处置后环境恢复
1、准备系统环境。
2、修复原生产环境,收市后进行环境恢复。
3、通知关联部门、人员。
系统负责人
8)应急总结
1、在应急处置完毕3个工作内提交《IT运行事件报告》
2、根据公司要求,提交《风险即时报告》
3、总结经验包括故障认定、流程优化、监控完善,增加、修订应急预案和知识库等。
系统负责人
2.流程图
五、技术处置方案
(1)应急场景分类
从故障原因是否已知的角度来看,应急场景可划分为已知应急场景和未知应急场景两大类。
(2)已知场景处置方案
1.已知应急场景处置信息表
已知应急场景处置信息表
序号
突发事件场景信息
检查节点及操作
定位故障环节
技术处置方案
技术处置方案更新日期
应急级别(初始)
决策人
汇报上级
预计技术处置时间(分钟)
技术信息
业务信息(可能)
1)
App程序故障
1Ping报警服务器检查网络是否畅通或是机器死机2telnet检查服务端口是否畅通3检查服务程序状态判断服务程序是否正常
在线交流二期app服务器*.*.*.*
ZXJL2-002、ZXJL2-003
应用支持组负责人
应用支持组分管领导
2)
App服务器硬件故障
1检查行情服务端口是否畅通2检查行情服务程序是否正常3检查服务器连接是否畅通4检查机器是否正常启动
在线交流二期app服务器*.*.*.*
ZXJL2-002
应用支持组负责人
应用支持组分管领导
3)
数据库故障
1Ping报警服务器检查网络是否畅通或是机器死机2telnet检查数据库服务端口是否畅通
在线交流二期db服务器*.*.*.*
ZXJL2-005
应用支持组负责人
应用支持组分管领导
4)
线路故障
客户反馈无法在线咨询
1Ping外网ip检查网络是否畅通
运营商网络
ZXJL2-004、
应用支持组负责人
应用支持组分管领导
2.已知场景应急处置技术方案
1)技术处置方案1:
(ZXJL2-01)在线交流系统故障处理流程
技术处置
方案名称
在线交流二期系统故障处理流程应急预案
适用场景
在线交流二期系统故障时的应急处理
应急操作步骤
序号
操作步骤
关键步骤操作结果
预计完成时间
1.
立即启动预案
2.
系统负责人第一时间组织进行故障排查
3.
立即联系厂商负责人,要求协助排查和解决。
4.
立即上报应急处置工作小组
5.
立即通知建设口负责人
6.
建设组负责人向安全组、信息技术部负责人报告。
组织在安信通向客服中心、分支机构公告。
通知相关各岗位做好分工、协助
7.
安全组向公司危机管理工作小组报告
8.
公司危机管理小组向公司危机领导小组报告,并通知公司营运中心、营销服务中心、合规部、风险管理部等部门。
开展舆情监控,实时了解互联网上是否有对本公司此次事件的报道,对有失实报道的情况,应联系相关媒体要求删帖或澄清。
通知客服中心做好客户安抚工作,指导客户使用其它渠道咨询。
9.
初步查找故障原因,确定影响的范围,估算可能解决的时间
10.
如果需要的时间可能超过1天,则信息技术部负责人报告公司领导
11.
立即启动应急处置流程
12.
联系本组开发人员、供应商共同查找故障的原因,根据不同的原因进行紧急修复
合计时间:
系统恢复步骤
1、系统恢复后,及时通报客服中心及各分支机构营业部。
2、继续统计和确认受影响范围,确认妥善安抚受影响客户,持续开展舆情监控。
3、安全组向公司危机管理工作小组报告。
通报深圳证监局和交易所,报告交易恢复正常,填写《网络信息安全事件报告书》进行书面报告。
4、评估事故造成的损失,制定善后解决方案。
5、进行事故总结,内容包括事故原因、解决过程、补救措施、事后加固措施等,报公司领导、深圳证监局。
2)技术处置方案2:
(ZXJL2-002)在线交流系统app程序故障处置方法
技术处置
方案名称
在线交流单台app程序故障处置方法
适用场景
app程序故障。
应急操作步骤
序号
操作步骤
关键步骤操作结果
预计完成时间
1.
查看app程序进程是否正常,查看app程序是否有连接数。
重启javaapp程序。
其它负载均衡的app服务器正常提供服务
10分
合计时间:
系统恢复步骤
重新启动修复正常的在线交流app服务程序。
3)技术处置方案3:
(ZXJL2-003)在线交流系统app服务器故障处置方法
技术处置
方案名称
在线交流单台app服务器故障处置方法
适用场景
app服务器故障
应急操作步骤
序号
操作步骤
关键步骤操作结果
预计完成时间
1
停止服务程序工作端口。
关闭故障服务器进行检修
其它负载均衡的行情服务器正常提供服务。
1天
合计时间:
系统恢复步骤
启动检修正常后的服务器,及app服务程序。
4)技术处置方案4:
(ZXJL2-004)在线交流系统线路故障处置方法
技术处置
方案名称
在线交流网络线路故障处置方法
适用场景
场景一:
在线交流系统网络线路故障
应急操作步骤
序号
操作步骤
关键步骤操作结果
预计完成时间
1
1通知客服中心,分支机构,做好客户解释和引导工作,并发布站点异常通告。
2通知运营商进行线路恢复。
内网ipping通,外网ipping不通
1天
合计时间:
系统恢复步骤
针对场景一:
线路恢复后,系统正常。
5)技术处置方案5:
(ZXJL2-005)在线交流系统数据库故障处置方法
技术处置
方案名称
手机证券所有站点行情故障处置方法
适用场景
场景一:
数据库服务程序故障
场景二:
数据库服务器硬件故障
应急操作步骤
序号
操作步骤
关键步骤操作结果
预计完成时间
1
针对场景一:
1重启数据库服务程序
数据库服务端口不通
10分钟
2
针对场景二:
1引导客户使用其它渠道进行咨询2重装一台数据库服务器,安装好数据库服务后,导入备份数据库进行数据恢复。
3.app服务器重新连接数据库服务器4.通知客服中心验证相应服务是否恢复
1天
合计时间:
系统恢复步骤
(3)未知场景处置策略
未知场景操作策略
策略
操作内容
环境保存
进行处置前,做好系统环境的保存(备份),必要时候可以回退。
回退操作
若系统前一日发生过重大变更的,在回退条件允许的前提下,可尝试回退处理。
重启程序
如果检测到某节点机器出现CPU,内存利用率异常的,应检查系统进程CPU、内存使用情况,尝试重启通讯程序。
检查特有参数
在程序界面均显示正常的情况下,应检查机器日期,时区设置是否正确,不正确时做修正。
寻求协助
联系开发商要求技术支持,结合开发商建议进行其他尝试。
切换备机
尝试切换备份机器。
。
。
。
六、应急所需资料
(1)故障发布话术
(2)设备位置信息表
(3)应急联络通讯录
(4)信息通报记录表
(5)技术处置记录表
七、版本更新记录
版本号
修订内容
修订/审核人
审批人
发布日期
1.0
云涛
马欣
2015.11.20
备注:
应急预案至少每年一次进行更新或者审核。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 在线 交流平台 应急 预案
![提示](https://static.bingdoc.com/images/bang_tan.gif)