IPS应急故障手册.docx
- 文档编号:15535461
- 上传时间:2023-07-05
- 格式:DOCX
- 页数:23
- 大小:121.92KB
IPS应急故障手册.docx
《IPS应急故障手册.docx》由会员分享,可在线阅读,更多相关《IPS应急故障手册.docx(23页珍藏版)》请在冰点文库上搜索。
IPS应急故障手册
故障指导手册
一.简介
为提高东方通信交换网络事业部IPS产品的可靠性和用户网络的畅通性,切实保证现网设备良好的运行质量。
尤其是在出现重大故障等紧急情况下使各级支持人员及时、准确地查找、分析和解决出现的问题,将用户损失和影响范围减至最小,特制定本应急处理预案
二.故障分类及大致解决思路
1.信令故障
1.1信令中断
可能原因有:
a)物理传输故障
可通过自环,查看告警来排查传输问题,和对端局核对传输
b)信令点数据错误
和对端核对数据,点码和slc,信令传输时隙需要和对端局核对。
c)信令时隙搭接错误
用DISPLAY-BSMNET-CONNECTION命令来检查信令资源时隙和信令传输时隙的搭接情况,可用CONNECT-BSMNET-TIMESLOT来进行重新搭接。
d)时钟同步问题
检查时钟是否锁定
e)单板故障
通过display-board-status命令来检查单板状态
f)最终手段
通过在传输上挂表来查看谁在键链过程中有问题。
1.2信令闪断
可能原因有:
a)物理传输故障
查看告警看是否传输存在频繁的入码流丢失,入码流恢复告警,可通过自环,查看告警来排查传输问题。
b)信令负荷过高
可通过display-mtp-linkloding来查看信令负荷是否过高,还可以通过查看协议单板回显,看是否收到对方的sio或者sib消息导致信令断开。
c)单板故障
查看瞬断的信令是否集中在某一块板卡上,通过重启或更换单板来排查问题。
d)最终手段
协调合作方在传输上挂7号信令仪,来判断谁最先发sio消息,以及发sio的原因。
2.ICP通道的故障
2.1与后台的ICP通道出现中断或瞬断
可能原因有:
a)后台宕机
协调合作方检查后台进程
b)我侧主控发生切换
检查主备数据是否一致,如果一致,协调合作方重启后台icp通道接口程序
c)我侧设备测试报文异常停止
通过watch-icp-channel可观察到我们icp通道内的测试报文是否有停止,如果有通道异常停止的,需要进行stop-icp-testlink,start-icp-testlink来对该通道的测试报文进行恢复。
d)网络故障
检查主控到后台的网络状况是否正常
2.2模块间现ICP通道故障包括断开和瞬断
可能原因有:
a)板卡故障
检查OTI板卡是否正常,尝试跟换光纤板
b)时钟同步问题
检查时钟是否同步,必要时可切换时钟板
c)网络故障(200多模块)
检查各模块到switch的网络状态,switch的本身工作状态。
2.3下层单板和主控之间ICP通道故障
可能原因有:
a)单板故障
检查单板状态重启单板
b)扁平电缆故障(老800)
检查电缆接头,插紧接口部分。
3.话路资源和特殊资源故障
3.1话路资源状态不正常
可能原因有:
a)传输故障
检查传输是否断开,和对端核对2m电路,检查是否有鸳鸯线
b)业务单板故障
检查单板状态,不正常时,在合作方同意时,可复位单板
c)时钟故障
检查时钟状态是否正常
d)信令路由不正常
通过display-mtp-dsproute检查信令路由是否可达
e)和对端局数据不一致
和对端局核对传输,华为部分局开始电路时隙为32时隙并未0时隙。
f)双方配合有问题
此时需要在线路上抓消息,发回研发分析定位
3.2特殊资源状态不正常
a)板卡本身硬件故障
检查板卡状态,复位板卡。
b)到后台铃音服务器网络故障
通过display-nfs-mountedip来检查是否mount上了后台铃音服务器,如果到后台长时间不通,我们系统会主动把板卡资源致忙。
c)板卡设置问题
检查板卡ip,mac,dsp的ip和mac看是否和组网环境里有冲突
d)放音结束后不正常释放
查看25号桌面消息,看后台有没有发release消息,如果仍无法定位,可以发回相关人员分析。
4.单板硬件故障
a)主控无法登陆
检查主控网线是否正常,主控是否在重启过程,尝试用11024端口登陆,尝试用电子盘加载方式加载,电子盘起来后,检查加载文件路径和加载文件名。
如果上述方法都无效,则需要更换主控单板
b)业务单板故障
查询单板状态,尝试重启恢复,重启前要关闭此单板上的电路和信令,如果重启无法恢复正常,或者恢复正常后,短时间内又故障,需要更换单板
三.各业务异常情况分析及排查思路
1.业务中断
a)彩铃等放音业务
1.查看告警
2.检查信令状态。
WATCH-LINK如果信令链路中断了,就查看告警表根据告警文件里的信息进行初步定位。
2.1告警表里出现中继的告警如AIS告警。
滑码告警,就从对应的中继上进行处理。
需要现场人员确认传输是否正常。
2.2告警表里出现了时钟的告警,这个也会引起信令闪断。
如果时钟问题就需要现场对时钟进行重设。
2.3可以通过告警表里的信令中断的数量和规律,根据局数据里的配置来定位是不是模块业务单板的信令处理机出现了故障?
如果是就需要对单板进行重启或者更换来解决故障。
或者是对端交换设备的单板故障。
那就需要对端进行更换或重启操作。
2.4信令闪断或者中断无法从告警表里无法查看出什么故障时。
可以本端对信令进行打死激活,让对端也进行打死激活来查看。
打死命令:
STOP-LINK:
SLG=,SLC=;
激活命令:
START-LINK:
SLG=,SLC=;
2.5可以对故障的信令进行删除再重新进行添加。
删除信令链路命令:
UNINSTALL-MTP-LINK:
SLG=,SLC=;
添加信令链路命令:
INSTALL-MTP-LINK:
?
;(查看局数据添加)
3.检查信令路由状态,DISPLAY-DSP.
3.1信令路由丢失的话就对路由重新进行设置用命令:
RESET-MTP;:
START-MTP;设置完成后再查看路由状态。
3.2查看告警文件,进一步分析。
4.检查信ICP通道状态WATCH-ICP-STATE
5.检查放音板卡是否异常,到后台是否网路中断。
6.进行信令跟踪,可以简易的通过对swcp的统计观察来进行信令流程正常与否的判断。
7.对25号桌面消息打印观察,可以参考特殊资源接口文档来判断媒体消息的正确与否。
b)智能网等纯信令业务
1.查看告警
2.检查信令状态。
WATCH-LINK如果信令链路中断了,就查看告警表根据告警文件里的信息进行初步定位。
2.1告警表里出现中继的告警如AIS告警。
滑码告警,就从对应的中继上进行处理。
需要现场人员确认传输是否正常。
2.2告警表里出现了时钟的告警,这个也会引起信令闪断。
如果时钟问题就需要现场对时钟进行重设。
2.3可以通过告警表里的信令中断的数量和规律,根据局数据里的配置来定位是不是模块业务单板的信令处理机出现了故障?
如果是就需要对单板进行重启或者更换来解决故障。
或者是对端交换设备的单板故障。
那就需要对端进行更换或重启操作。
2.4信令闪断或者中断无法从告警表里无法查看出什么故障时。
可以本端对信令进行打死激活,让对端也进行打死激活来查看。
打死命令:
STOP-LINK:
SLG=,SLC=;
激活命令:
START-LINK:
SLG=,SLC=;
2.5可以对故障的信令进行删除再重新进行添加。
删除信令链路命令:
UNINSTALL-MTP-LINK:
SLG=,SLC=;
添加信令链路命令:
INSTALL-MTP-LINK:
?
;(查看局数据添加)
3.检查信令路由状态,DISPLAY-DSP.
3.1信令路由丢失的话就对路由重新进行设置用命令:
RESET-MTP;:
START-MTP;设置完成后再查看路由状态。
3.2查看告警文件,进一步分析。
4.查看SCCP层GT译码情况,查看GT数据部分,查看SCCP层路由情况
5.了解业务流程,配合TCAP层消息体来检查,看消息流程是否有缺失
6.检查信ICP通道状态WATCH-ICP-STATE
c)IP承载(有待王亮亮补充)
d)TD多媒体彩铃,IVVR等3G视频播放业务
1.查看告警
2.查看各单板硬件状态
3.查看到后台icp通道状态,到后台网络状况。
4.查看msip板卡ip,路由配置情况,与后台服务器连接情况。
5.查看bicc偶联状态
6.查看asp是否可达
7.用网络抓包软件在网络上抓包分析信令流程
8.查看25号桌面消息,及msip的单板回显
2.概率呼损
a)彩铃等放音业务
1)查看告警
2)检查信令状态。
WATCH-LINK如果信令链路有闪断,就查看告警表根据告警文件里的信息进行初步定位。
2.1告警表里出现中继的告警如AIS告警。
滑码告警,就从对应的中继上进行处理。
需要现场人员确认传输是否正常。
2.2告警表里出现了时钟的告警,这个也会引起信令闪断。
如果时钟问题就需要现场对时钟进行重设。
2.3可以通过告警表里的信令中断的数量和规律,根据局数据里的配置来定位是不是模块业务单板的信令处理机出现了故障?
如果是就需要对单板进行重启或者更换来解决故障。
或者是对端交换设备的单板故障。
那就需要对端进行更换或重启操作。
2.4信令闪断或者中断无法从告警表里无法查看出什么故障时。
可以本端对信令进行打死激活,让对端也进行打死激活来查看。
打死命令:
STOP-LINK:
SLG=,SLC=;
激活命令:
START-LINK:
SLG=,SLC=;
2.5可以对故障的信令进行删除再重新进行添加。
删除信令链路命令:
UNINSTALL-MTP-LINK:
SLG=,SLC=;
添加信令链路命令:
INSTALL-MTP-LINK:
?
;(查看局数据添加)
3)检查信令路由状态,DISPLAY-DSP.
3.1信令路由丢失的话就对路由重新进行设置用命令:
RESET-MTP;:
START-MTP;设置完成后再查看路由状态。
3.2查看告警文件,进一步分析。
4)检查信ICP通道状态WATCH-ICP-STATE
5)检查放音板卡是否异常,到后台是否网路中断。
1.使用命令:
DISPLAY-NFS-MOUNTEDIP:
SLOT=?
;
RESULT:
RETURNMSG="语音板已设置NFS服务器:
192.168.25.10,192.168.26.11";
以上的回显就表明语言单板已经MOUNTE上铃音服务器。
可以正常使用。
2.如果语言单板MOUNTE不上铃音服务器,就需要对网络进行检查。
需要用户对铃音服务器进行检查,是否打开了权限。
允许时可以对单板进行重启,或者重设命令。
6)针对个别铃音对内存进行检查和铃音下载进行检查
1.固定音放音方式可以使用命令查看加载情况。
只需要注意“物理加载标志”是成功的就可以。
:
DISPLAY-SRMP-VOICETABLE:
LANGUAGE=6,TONETYPE=2;
回显结果如下:
语言语音逻辑语音物理语音语音物理加逻辑加
编号编号编号编号文件名载标志载标记
6212048001C.pcm000c0000c0
2.NFS放音方式需要打开单板桌面,再使用命令查看内存里的铃音。
分析内存里是否有播放不成功的那个铃音。
如果存在就对铃音进行大小分析和后台语言服务器上的铃音实体进行比较看是否下载完整?
如果都正常就可以排除是铃音故障。
查看内存的命令:
:
display-mfip-voicelist:
slot=?
;
7)进行信令跟踪,由于是呼损,业务并没有全断,因此不能用统计的方式来对信令流程进行排查,只能通过设置呼叫跟踪,跟踪特定的主被叫号码。
8)对25号桌面消息打印观察,可以参考特殊资源接口文档来判断媒体消息的正确与否。
由于是呼损,所有的消息跟踪均开启均要小心,需在业务闲时开启定位。
b)智能网等纯信令业务
1)查看告警
2)检查信令状态。
WATCH-LINK如果信令链路中断了,就查看告警表根据告警文件里的信息进行初步定位。
2.1告警表里出现中继的告警如AIS告警。
滑码告警,就从对应的中继上进行处理。
需要现场人员确认传输是否正常。
2.2告警表里出现了时钟的告警,这个也会引起信令闪断。
如果时钟问题就需要现场对时钟进行重设。
2.3可以通过告警表里的信令中断的数量和规律,根据局数据里的配置来定位是不是模块业务单板的信令处理机出现了故障?
如果是就需要对单板进行重启或者更换来解决故障。
或者是对端交换设备的单板故障。
那就需要对端进行更换或重启操作。
2.4信令闪断或者中断无法从告警表里无法查看出什么故障时。
可以本端对信令进行打死激活,让对端也进行打死激活来查看。
打死命令:
STOP-LINK:
SLG=,SLC=;
激活命令:
START-LINK:
SLG=,SLC=;
2.5可以对故障的信令进行删除再重新进行添加。
删除信令链路命令:
UNINSTALL-MTP-LINK:
SLG=,SLC=;
添加信令链路命令:
INSTALL-MTP-LINK:
?
;(查看局数据添加)
3)检查信令路由状态,DISPLAY-DSP.
3.1信令路由丢失的话就对路由重新进行设置用命令:
RESET-MTP;:
START-MTP;设置完成后再查看路由状态。
3.2查看告警文件,进一步分析。
4)查看SCCP层GT译码情况,查看GT数据部分,查看SCCP层路由情况
5)了解业务流程,配合TCAP层消息体来检查,看消息流程是否有缺失
6)检查信ICP通道状态WATCH-ICP-STATE
c)IP承载(有待王亮亮补充)
d)TD多媒体彩铃,IVVR等3G视频播放业务
a)查看告警
b)查看各单板硬件状态
c)查看到后台icp通道状态,到后台网络状况。
d)查看msip板卡ip,路由配置情况,与后台服务器连接情况。
e)查看bicc偶联状态
f)查看asp是否可达
g)用网络抓包软件在网络上抓包分析信令流程。
h)查看25号桌面消息,及msip的单板回显
四.总结
业务全断和呼损问题很多排查手段基本都是一致的,但是由于呼损还是有正常业务在设备上运行的,因此在排查呼损的时候就要是时刻注意不要影响现网业务,很多操作需要放在晚上业务闲时执行。
同时分析的数据量也会比业务全断大很多。
在现场工作中,问题的表象五花八门,无奇不有。
但最终都能归咎到人为操作和软硬件问题上,因此我们要透过现象看本质,熟读7号信令,多了解媒体业务的消息流程和消息体内各字段含义,熟悉前后台接口消息,icp报文消息。
熟练掌握数据的配置和理解数据每一部分的含义,这样对我们判断现场问题和解决问题会有很大的帮助。
附录(基础维护知识和操作)
一.面板指示灯状态查看
1.主控面板指示灯
RUN:
运行指示,绿色。
当单板正常运行时,指示灯闪烁,0.5S亮、0.5S灭。
ALARM:
告警指示,红色。
当单板正常运行时常灭,单板一般故障时以一定频率闪烁,严重故障时,常亮;单板上电、复位完成指示灯灭。
M/S:
主备用指示,黄色。
如果单板运行为主用,指示灯亮,做备用板时灭。
单板加
ENRUN:
以太网运行指示,绿色。
当数据通过以太网时,ENRUN闪烁。
EN10/100:
以太网10M、100M自适应指示,绿色。
.HUB为10M时灭。
ENLI:
以太网连接指示,绿色。
当以太网连接正常时,ENLI亮。
HD:
硬盘工作指示,绿颜色。
当对硬盘读写时,HD亮。
RESET:
复位开关.
EXCH:
主备用切换开关.
注:
单板加载时,面板指示灯RUN亮、M/S闪动规律
网络加载时,RUN灭,面板指示灯M/S闪动(0.3S亮、0.3S灭);
hdlc加载时,面板指示灯RUN和M/S交替闪动(0.3S亮、0.3S灭);
硬盘加载时,面板指示灯RUN和M/S同时闪动(0.3S亮、0.3S灭)。
2.多协议处理板面板指示灯
RUN:
运行指示,绿色。
当单板正常运行时,指示灯闪烁,0.5S亮、0.5S灭。
ALARM:
告警指示,红色。
当单板正常运行时常灭,单板一般故障时以一定频率闪烁,严重故障时,常亮;单板上电、复位完成指示灯灭。
E1灯:
0-15个标识的E1。
当E1芯片线路侧接收到数据时,相应的指示灯亮,即入码流正常时亮,入码流丢失时灭。
RESET:
复位灯。
3.语言板面板指示灯
RUN:
运行指示,绿色。
当单板正常运行时,指示灯闪烁,0.5S亮、0.5S灭。
ALARM:
告警指示,红色。
当单板正常运行时常灭,单板一般故障时以一定频率闪烁,严重故障时,常亮;单板上电、复位完成指示灯灭。
DSP:
DSP状态指示灯,绿色。
闪频
L0、L1、R0、R1:
以太网灯。
L0对应上网口灯。
L1对应下网口灯。
R0和R1各自闪频为有数据传输正常。
E0-15:
E1指示灯。
绿色正常亮,不正常灭。
4.时钟板面板指示灯
二.系统正常状态查看
1.单板状态
1.1登录交换机使用命令查看单板状态命令如下:
:
DISPLAY-BOARD-STATUS:
SLOT=?
;
正常的状态回显如下:
LOCATION:
LAYER0,SLOT16
CFGBRDTYPEMFIP
CFGBRDSUBTYPEMFIP(0E1)
BRDTYPEMFIP
BRDSUBTYPEMFIP(0E1)
SERVICEOK
ONLINEYES
IOPORTOK
ICPOK
M/SN/A
MS232N/A
NETN/A
RUNNINGSTATEOK
LOADINGSTATELOADED
SELFTESTSTATETESTED
TESTFLAGYES
注释:
(1)查看单板类型、
(2)查看单板SERVICE状态、(3)查看ONLINE状态、(4)查看ICP通道状态、(5)M/S主备板(主用为MASTER、备用为SLAVE)、(6)MS232主备用单板之间的通道状态、(7)查看RUNNING状态、(8)查看LOADING状态、(9)查看自检状态SELFTEST
1.2使用OMS查看单板状态操作如下:
登陆OMS操作维护台,在设备树区选择目标IPS系统的某个模块,选择[监控/设备控制/机框单板状态],或者选中目标IPS系统后点击右键,在上下文菜单里选择[单板状态]
可以通过选定一块单板来详细的查看单板的状态:
选中一块业务板点击右键选中[单板状态]:
出现如下图所示是显示正常的状态:
2.信令链路状态
2.1登录交换机使用命令查看(登录NSCP模块):
:
WATCH-LINK;
正常的状态回显如下:
信令链路信令时隙活动性可用性对端信令点
1-01-0-0-0x10ActiveAvailT2
1-12-0-0-0x10ActiveAvailT2
2-01-1-0-0x310ActiveAvailT1
2-12-1-0-0x310ActiveAvailT1
LinkNum=4;
注释:
(1)信令链路(1-0为SLG=1,SLC=0)。
(2)信令时隙(信令配置的物理传输时隙和信令处理机时隙)如1-0-0-0x10可以理解为:
信令物理传输链路配置在BSM1模块的第0个E1的16时隙上、信令处理机配置在BSM1模块的第10槽位的MPPII单板上的第0号信令处理机时隙。
(3)活动性(信令活动状态)。
(4)可用性(信令使用状态)。
(5)对端信令点(对端直达信令局名)
2.2使用OMS操作查看信令状态:
a)登陆OMS操作界面,在设备树区选择目标IPS系统,选择[监控/七号信令/链路管理],确认所有链路组信令链路是否正常激活(显示为可用/活动);
3.ICP通道状态
3.1登录交换机查看系统ICP通道状态(只有登录NSCP查看才能对应查看到交换机跟后台之间的ICP通道状态):
:
WATCH-ICP-STATE;
正常状态回显如下:
ID=16,TYPE=1,HDLC=13,SOCKET=0,CSTATE=8(WORKING),SERVICESTATE=1,TSTATE=4
ID=17,TYPE=1,HDLC=14,SOCKET=0,CSTATE=8(WORKING),SERVICESTATE=1,TSTATE=4
ID=31,TYPE=3,HDLC=0,SOCKET=16,CSTATE=8(WORKING),SERVICESTATE=1,TSTATE=4
ID=32,TYPE=3,HDLC=0,SOCKET=10,CSTATE=8(WORKING),SERVICESTATE=1,TSTATE=4
注释:
(1)ID为ICP的通道号。
(2)TYPE为通道的类型(1表示HDLC,2表示UDP,3表示TCPSERVER,4表示TCPCLIENT)。
(3)HDLC为通道号(当TYPE为HDLC类型时才会使用。
其余TYPE类型的通道HDLC都为0)。
(4)SOCKET(孙彤补充)。
(5)CSTATE为ICP的通道状态(8为ICP通道在工作状态、4为ICP通道接纳一个连接(ACCEPTING)、5为ICP通道正在连接对方(CONNECTING)、9为ICP通道停止工作(STOP))。
(6)SERVICESTATE为链路的服务状态(0表示不提供服务、1表示提供服务)。
(7)TSTAT为ICP测试进程是否开启(0表示未开启、3和4表示已经开启)
3.2OMS查看ICP通道状态:
4.信令路由状态
4.1登录交换机查看信令路由状态:
:
DISPLAY-MTP-DSPROUTE:
NETID=10;
回显结果如下:
RESULT:
NETID=10,DPC="255.27.249",
SpType=SP,NetType=Ccs7Net,Alias="T2",
DirectSlg=1,RouteNum=1,Access=Access,RP=0;
RESULT:
NETID=10,DPC="255.27.249",
R1TRAFFIC=8,LSR1TRAFFIC=0,
RP=0,ROUTE1=1,R1TFS=8,State=Available,Use=1,
ROUTE2=1,R2TFS=8,State=Available,Use=1,
LSRP=0,LSTRAFFIC=0,LSR1TFS=0,LSR2TFS=0;
ROUTE_TABLE:
SLS:
0123456789101112131415
SET:
1111111111111111
SLC:
1111111100000000
注释:
(1)NETID为网号(NO.7信令网分布范围一般在10-31)。
(2)DPC为对端局向点码。
(3)RP为路由级别(0为正常路由、1为第一级迂回路由、2为第二级迂回路由、3为第三级迂回路由)。
(4)STATE为路由状态。
(5)ROUTE_TABLE为路由表。
4.2OMS查看信令路由状态:
b)登陆OMS操作界面,在设备
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IPS 应急 故障 手册