集中备份系统应急方案Word文件下载.doc
- 文档编号:3618117
- 上传时间:2023-05-02
- 格式:DOC
- 页数:14
- 大小:322.50KB
集中备份系统应急方案Word文件下载.doc
《集中备份系统应急方案Word文件下载.doc》由会员分享,可在线阅读,更多相关《集中备份系统应急方案Word文件下载.doc(14页珍藏版)》请在冰点文库上搜索。
3.5.1. 光纤交换机个别端口故障 9
3.5.2. 光纤线有问题 10
3.6. 网络故障应急步骤及恢复策略 10
3.7. 主机HBA故障 10
1.前言
集中备份系统由IBM3584带库/STKL1400、SYMANTEC|netbackup备份软件、SYMANTEC|netbackup备份客户端、光纤交换机,IBM备份服务器等组成。
其中由于3584带库及L1400带库属机械设备,存在出现机械故障的风险点,还有其他组件也存在出现故障的可能性;
现针对集中备份系统可能出现的故障点,为后期备份系统的进一步完善,特制定本应急方案。
说明:
以下操作步骤如果没有特殊说明都是由备份管理员操作.
2.数据库日志备份应急措施
针对Oracle,Informix数据库在线备份,都需要打开归档功能做日志备份.如果备份系统出现问题,不能进行日志备份的话,需采取如下应急措施:
2.1.Oracle数据库的应急处理方法
目前集中备份系统使用ORACLE数据库的业务为ODSB,且归档日志与ODSB项目组确认后是可以删除的,清理日志的机制已下发分行。
如分行有特色系统使用ORACLE数据库且已经加入集中备份系统:
1、保留归档日志
方法一.可更改归档日志生成路径,但确保更改后的文件系统足够大。
命令举例:
方法二.当归档日志文件系统使用率达60%,可将归档日志拷贝、转移到其他文件系统(本机或异机)。
2、不保留归档日志
数据库管理员可使用rman命令删除归档日志(不要直接使用rm命令删除),命令举例:
如果希望归档日志自动清理,请参照ODSB归档日志自动清理机制。
2.2.Informix数据库的应急处理方法
参数配置前提
针对重要系统informix数据库的逻辑日志采用onbar进行备份时,目前的LTAPEDEV通常设置为一个文件,不能是null。
故障现象
当日志无法备份时,从数据库的角度,出现大量未备份的日志,(U------),最终导致日志被用满,数据库的日志出现错误
故障处理步骤
1、停止带库备份软件进程(如果临时应急时间很短,可以考虑不停止)
2、检查系统中是否有挂起的onbar进程,如果存在,kill杀掉该进程(如果该进程僵死,存在杀不掉的可能)
3、查看目前onconfig中的LTAPE配置参数
LTAPEDEV/home/db/informix/log.bak#Logtapedevicepath
LTAPEBLK32#Logtapeblocksize(Kbytes)
LTAPESIZE102400#Maxamountofdatatoputonlogtape(Kbytes)
l察看当前的LTAPEDEV所配置的文件是否存在
l咨询具体负责人,是否要保留日志
不保留日志:
1、将/dev/null链接到具体的文件上,以上图为例,ln–s/dev/null/home/db/informix/log.bak
2、修改onconfig参数ALARMPROGRAM所指向的文件,即逻辑日志备份脚本,将BACKUP_CMD="
onbar-b-l"
改为BACKUP_CMD="
ontape-a"
3、再次确认所有onbar进程已经被kill掉
4、通过onstat–l监控目前日志的变化情况
注:
此过程无需重启informix数据库。
保留逻辑日志:
1、可将逻辑日志备份至本地磁带机或文件系统,如果备份至文件系统需保证文件系统空间(逻辑日志落地空间)充足;
2、在有空间的文件系统创建一个文件(权限:
660;
informix:
informix),并将文件链接到LTAPEDEV所指向的文件,或将LATPEDEV指向磁带机设备;
3、修改onconfig参数ALARMPROGRAM所指向的文件,即逻辑日志备份脚本,将BACKUP_CMD="
"
,再直接运行ontape-c,这个命令的作用是是连续不断地备份数据库逻辑日志,只需要运行一次,一直挂界面上运行,或则放在后台运行;
4、再次确认所有onbar进程已经被kill掉,并使用onstat–l查看日志状态;
5、对已经备份出来的日志进行妥善保管,以应对紧急情况下的日志回滚,并加强对文件系统空间使用率监控。
3.集中备份系统故障应急措施
3.1.故障分类
(1)带库硬件故障(A.机械臂,B.控制面板,C.IOStation,D.MCP卡(负责磁带机通讯),E.ACC卡(控制机械臂的电路板)等单点故障、驱动器故障)
(2)NBU备份软件故障(备份客户端软件故障、备份服务器备份进程异常)
(3)备份服务器故障(备份服务器硬件故障)
(4)光纤交换机故障(光纤交换机个别端口故障、光纤线有问题)
(5)网络故障(网络不通)
(6)主机HBA故障
根据故障的业务影响面不同,我们把故障定义为以下三类:
一般故障:
只影响个别备份客户端,影响不大;
严重故障:
涉及部分备份客户端,影响一般;
备份停业:
最严重的一种故障,导致备份系统瘫痪。
故障分类
细分类
备份停业
严重故障
一般故障
带库硬件故障
带库单点故障
◆
驱动器故障
备份软件故障
备份客户端软件故障
备份服务器备份进程异常
备份服务器故障
备份服务器硬件故障
光纤交换机故障
光纤交换机个别端口故障
光纤线有问题
网络故障
主机HBA故障
3.2.带库硬件故障应急步骤及恢复策略
3.2.1.带库单点故障
由于磁带库只有一个A.机械臂,B.控制面板,C.IOStation,D.MCP卡(负责磁带机通讯),E.ACC卡(控制机械臂的电路板)等部件,如果以上任一部件有故障,整个备份系统就会瘫痪,影响非常严重。
(1)带库单点故障应急步骤
第一步:
在备份服务器管理界面上,将所有的文件、数据库0级备份的policy“dactive”;
具体操作步骤如下:
a.以管理员身份登陆NetbackupAdministrationConsole界面
b.将“Active.Gointoeffectat:
”前的“√”
c.带库故障并不影响逻辑日志备份至磁盘存储单元,避免因排查故障而频繁重启备份服务器NBU进程及操作系统,导致逻辑日志堆积;
第二步:
如果修复时间不超过8个小时,先通知各系统管理员密切关注数据库逻辑日志使用情况、逻辑日志落地文件系统的使用率,达到50%发出通知,提前采取应急措施.
各系统管理员需要实时监控各数据库日志、日志文件系统使用情况:
a.Informix数据库逻辑日志使用情况
使用$onstat-l 查看
b.Informix数据库落地日志文件系统
使用#df –g 查看
c.Oracle数据库日志文件系统
d.如果日志达到50%,请数据管理员先将日志文件移到空闲的文件系统上.
第三步:
如果维修的时间过长,逻辑日志或存放日志的文件系统就会出现满的情况,这时数据库就会宕机或归档日志就不能正常备份,就要采取日志抛空或转移,详见第二章数据库日志备份应急措施.
(2)恢复策略
带库单点故障部件修复好了,在带库面板上做取带、退带操作测试;
a.选择某一磁带load到驱动器中;
b.Mount成功后,选择驱动器做umount操作
c.Load,unload都操作成功的话,说明带库已经正常.
第二步:
备份管理员在备份服务器上启动备份服务;
第三步:
备份管理员在备份服务器管理界面上将置为“inactive”的备份策略,置成“active”;
3.2.2.驱动器故障
如果出现个别驱动器不能读写的故障,首先检查是否是链路的问题(光纤线、交换机端口故障)如果确实是驱动器故障的话,需要更换驱动器。
其具体的检查方法为:
1.如果驱动器有问题的话,在备份服务器的日志中会有报某个驱动器使用有问题的信息
2.同时在操作系统的系统日志中也会有相关报错信息.
(1)应急步骤
如果驱动器有故障,NBU备份软件会自动将其状态设置为“down”,也可以手工操作:
在管理界面“mediaanddevicemanagement”“devicemonitor”中选中有故障的驱动器,右键“downdrive”
通知IBM工程师更换有故障的驱动器;
如果是3584带库的第一个驱动器坏掉,需要将机械手的光纤通路切到其余驱动器上,并在备份软件上配置相应的ovpass,详见《IBM3584带库机械手多路冗余配置方法》
在管理界面“mediaanddevicemanagement”“devicemonitor”中选中已更换的驱动器,右键“updrive”
备份管理员在备份管理界面上发起备份或新建测试用备份策略验证驱动器是否工作正常。
3.2.3.驱动器卡带故障
如果出现所使用驱动器卡带的情况,采取以下应急及恢复策略:
备份管理员在备份管理界面上先停止相关项目的备份作业;
具体操作步骤如下:
备份管理员在带库管理界面或液晶面板上弹出卡带的磁带;
和系统管理员协商补备时间,由备份管理员再次发起备份任务;
(2)恢复策略
通过以上应急步骤问题解决后,备份作业就能正常进行了.通过检查统计备份服务器日志,分析是磁带的问题还是驱动器问题,确认后进行更换.
3.3.备份软件故障应急步骤及恢复策略
3.3.1.备份客户端软件故障(包括client及mediaserver)
备份客户端软件发生问题,导致本机不能进行数据库及日志的备份。
联系备份软件厂商,如果一时无法定位问题,可考虑在主机上删除备份软件及驱动程序,重装备份客户端。
安装删除步骤详见
如果不能通过LANFree备份,先考虑通过网络备份。
当故障排除后,恢复原有配置;
如原来为LAN_FREE备份方式,当前为LAN,需重新安装配置mediaserver端。
3.3.2.备份服务器备份服务启不来
备份服务器备份服务无法启动,不能进行正常工作。
此问题非常严重。
第一步:
如果可以的话在备份服务器管理界面上,将所有的备份策略为“inactive”;
各系统管理员需要实时监控各数据库日志文件系统使用情况:
b.Informix数据库落地日志文件系统(一般为/home/ap/nsrdboxx)
c.Oracle数据库日志文件系统(一般为/home/db/orarchxx)
当备份软件问题解决后,
第一步:
备份管理员在备份管理界面上“active”所有的policy;
3.4.备份服务器硬件故障
3.4.1.备份服务器硬件故障应急步骤及恢复策略
如果由于备份服务硬件故障,如HBA卡、网卡、本地硬盘等出现问题,导致不能提供正常的备份服务。
(1)应急步骤
第一步:
备份管理员将备份服务进程停下来;
第二步:
备份管理员在备份服务器上做HA切换,接管正常的备份服务;
如果是服务器硬件或网络问题,HA会自动切换.没有发生切换的话,在备机上启动资源组.
(2)恢复策略
当备份服务器硬件正常后,备份管理员在备份服务器上做HA切换,接管正常的备份服务。
3.5.光纤交换机故障应急步骤及恢复策略
3.5.1.光纤交换机个别端口故障
如果光纤交换机个别端口出现故障,影响正常备份,照以下应急步骤处理:
(1)应急步骤
如果是备份服务器连接存储(diskstorageunit)的光纤通路中断,首先进行HA切换,如果两台备份服务器的光纤通路均失效则采取第2章数据库日志备份应急措施。
如果是备份服务器连接磁带库的光纤通路中断,首先进行HA切换,如果两台备份服务器的光纤通路均失效,采取3.2.1带库单点故障处理。
如果是mediaserver连接光纤交换机端口失效,按3.3.1备份客户端软件故障处理。
第四步:
如果是机械手光纤通路中断:
1.须将3584带库机械手光纤通路切换到其他驱动器,后续按3.2.2步骤处理;
2.L1400带库,处理方法按3.2.1步骤处理;
如果是驱动器光纤通路中断,按3.2.2步骤处理;
(2)恢复策略
如果端口正常后,需要恢复原有配置。
3.5.2.光纤线有问题
如果因为光纤线的问题,导致不能正常备份。
首先考虑更换光纤线,如果更换的时间特别长的话,先参照光纤交换机个别端口出现故障的应急步骤和恢复策略处理,具体见3.5.1.
3.6.网络故障应急步骤及恢复策略
由于网络出现问题,备份服务器和备份客户端不能正常通讯,导致备份不能正常进行。
分两种情况:
情况一:
个别客户端与masterserver通讯故障,按3.3.1步骤处理
情况二:
masterserver与所有客户端通讯故障,按3.3.2步骤处理
参照3.2.1及3.2.1故障恢复策略。
3.7.主机HBA故障
备份服务器HBA卡故障按3.4备份服务器硬件故障处理。
如果通过LAN_FREE备份的mediaserver出现HBA卡故障,参照如下步骤进行处理:
(3)应急步骤
备份管理员在备份管理界面上Disable存储节点的LAN_FREE路径;
将“Enablehostpath”前的“√”去掉;
第二步:
备份管理员在备份管理界面上修改备份方式,改为通过LAN做备份。
涉及到该生产系统的“PolicyStorage”改为备份服务器的storageunit。
恢复策略
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 集中 备份 系统 应急 方案