服务器故障应急响应方案.docx
- 文档编号:14485127
- 上传时间:2023-06-23
- 格式:DOCX
- 页数:11
- 大小:59.10KB
服务器故障应急响应方案.docx
《服务器故障应急响应方案.docx》由会员分享,可在线阅读,更多相关《服务器故障应急响应方案.docx(11页珍藏版)》请在冰点文库上搜索。
服务器故障应急响应方案
服务器故障应急措施方案
文档信息
文档名称服务器故障应急措施方案
日期版本号更新说明
2014-03-14Ver_1.0
建立文档、初始化
1.方案概述
导致服务器出现故障的问题是一个庞大的集合,可以分成很多种导致服务器出现故
障的原因,根据服务器故障出现的状况进行分类,确定故障属于哪一个级别,根据相应
的故障级别对故障做对应的处理,确保故障的处理流程是标准化的。
如果没有一套故障处理的标准,工程师只能靠经验去判断,但是依靠经验判断并不
是不可以,有时候这种处理方式会很高效,但是大多数这种处理方式都是不太合理的,如果更换了运维工程师,显然每一个工程师通过经验去判断故障原因的方式都不尽相同,这样的差异将会使故障处理事后不能够得到很好的记录与存档,以供其他工程师以后借
鉴故障处理案例。
故障处理标准化的优点:
A.根据流程可以确定哪些故障应该立即汇报上级,哪些可以自行解决后,再写故
障处理报告汇报上级,这样做有助于提高故障处理效率。
B.对于工程师经验判断,可能出现判断失误的情况,根据故障判断流程,可以不
遗漏任何可能的情况对服务器故障进行排除。
C.有时候工程师处理了故障之后只是简单的做了一下汇报,并没有一些故障处理
过程的记录,以及故障处理的详细时间记录,这样对需要追溯以前的具体情况
的时候就束手无策了。
2.划分故障等级
故障级别
故障说明
故障处理第一步
I级
当系统出现下列相当严重的现象时,属一级故障:
立即汇报上级
(紧急)
•系统整体瘫痪,全部操作失去响应;
•系统崩溃,关键硬件或文件系统损坏无法自动修复;
•发生间歇性、随机性、重复性的启动或应用退出,无法保障公司业务的正常处理。
n级
(重要)
当系统出现下列比较严重的现象时,属二级故障:
•关键部件(含软、硬件)停止工作,导致系统降低运行状态,客户业务受到严重影响;
•系统整体性能严重下降,无法自动恢复正常运行状态;
•重要数据、参数和配置信息损坏,无恢复,
导致客户数据及业务记录严重损失;
立即汇报上级
川级
(关键)
当系统出现下列现象时,属三级故障:
•部分设备或软件异常,局部功能受限,系统
整体仍可正常工作,对客户业务影响不大或
存在隐患;
•关键备用设施因故障离线,主用设施仍能正
常工作;
•系统运行指标(例如:
I/O效率、CPU效
率)受到直接或间接影响,客户业务处理缓
慢;
立即汇报上级
"级
(告警丿
当系统出现下列情况而不影响客户业务时,属四级故障:
•不在运行状态的线路、端口损坏;
•出于安全考虑并且是受保护的软件降级或应用重启;
•因存储空间不足导致的性能下降;
•系统硬件、软件产品功能、安装、或配置方面的支援;
•业务仍然可以正常运作,但是服务器报出故障信息的;
故障排错判断
3.故障分类
序列
问题种类
详细内容
1、
骨干网光纤切割;
2、
机房网络升级;
机房网络故障
3、
机房网络设备调试;
4、
机房网络设备损坏;
1、
服务器没有备案;
2、
域名备案存在冋题;
-二二
政府部门封网
3、
黑客入侵导致服务器违法行为;
4、
违规代理服务器;
5、
6、
服务器转发违禁网站;
服务器放置的网站内容不符合当地的政府法例法规;
1、
机房空调故障问题;
三
机房铺助设备故障
2、
机房灰尘过多冋题;
3、
机房电力供应问题;
1、
机柜扩容;
四
机房机柜迁移
2、
机柜移位;
3、
服务器迁移机柜;
1、
电源线损环;
2、
服务器电源损坏;
3、
服务器非人为硬盘损坏;
五
服务器硬件故障
4、
服务器受黑客入侵攻击时导致硬盘损坏;
5、
CPU温度过高烧毁;
6、
内存使用中损坏;
7、
主板在电源损坏时容易烧毁;
1、
黑客攻击导致系统瘫痪;
2、
缓存日志过多没有整理;
六
服务器系统故障
3、
人为配置不当导致系统崩溃;
4、
硬盘损坏导致系统崩溃;
七
服务器应用故障
1、
2、
3、
4、
5、
6、
服务器放置的应用程序存在bug后门等;
服务器环境配置问题;
黑客攻击导致应用程序崩溃;
硬盘、内存的兼容性差导致应用程序崩溃;
应用程序没有优化占用服务器硬件资源过高导致崩溃;
用户负载过多导致应用程序崩溃;
1、
数据超过硬盘读写负载能力导致应用程序崩溃;
2、
CPU使用率跑满导致服务器宕机;
八
服务器硬件超负荷
3、
使用内存cache占用过多导致宕机;
4、
硬盘空间使用满导致宕机;
1、
用户量过多,服务器带宽不足,导致卡顿,用户访问程序
故障;
九
服务器网络超负荷
2、
系统连接数过多造成系统拥堵网络带宽使用不上;
3、
数据库数据读写占用过多服务器连接数,达不到预期的服
务器带宽;
1、
人为违规关机;
十
人为违规操作
2、
人为违规操作更改或删除服务器应用;
3、
机房人为关机或断电;
1、
服务拒绝攻击导致系统崩溃,如常见的UDP洪水攻击等;
2、
利用型攻击导致黑客入侵系统,如特洛伊木马、口令猜测
十-
服务器受到攻击
等;
3、
信息收集型攻击,如体系结构探测、DNS域转换等
4、假消息攻击,如DNS高速缓存污染、伪造电子邮件等
十二
不可预知因素
1、机房遭遇火灾事故;
2、机房遭遇地震事故;
4.故障应急处理流程
r
服务器出现
判断故障
记录发生
故障排错
故障排错
问题处理
故障处理
发送邮件给相关
服务器故障处理
XJ
5.故障排错流程
故障排错开始
启用备用服务器
是是
否否
故障处理完成
6.数据与日志备份
在进行故障修复的时候,需要对服务器系统以及软件的配置文件进行修改,这些修
改可能造成的风险是很大的,这时保存备份配置文件信息、应用数据、系统日志信息会很重要,可以直接通过shell脚本对服务器重要的数据进行备份。
7.故障处理报告
7.1.故障处理报告文件命名规则
文件名前缀
故障级别
服务器名称
故障类型
故障处理报告
I级—紧急
Linux服务器名称
(终端#前面的子符)
故障分类一详细内容
n级一重要
川级关键
"级告警
例如:
故障处理报告_I麥紧急_squid-chendu_系统崩溃
7.2.故障处理报告内容
故障发现时间
Xxxx年XX月xx日xx:
xx(24小时制)
处理完成时间
如果处理一次就解决的直接写:
Xxxx年XX月xx日xx:
XX(24小时制)
如果多次处理后才解决,按下面格式写:
1Xxxx年XX月xx日xx:
xx
2Xxxx年XX月XX日XX:
XX
3Xxxx年XX月XX日XX:
XX
(24小时制)
(24小时制)
(24小时制)
故障处理人员
故障描述
根据故障等级划分的说明加上一些详细的内容
故障处理过程
故障排错的详细过程,可以用图表形式表达
故障原因
导致故障发送的原因
解决方法
写上最终用什么方式解决故障问题
WelcomeTo
Download!
!
!
欢迎您的下载,资料仅供参考!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 服务器 故障 应急 响应 方案