W908故障应急预案.docx
- 文档编号:18585377
- 上传时间:2023-08-19
- 格式:DOCX
- 页数:28
- 大小:27.76KB
W908故障应急预案.docx
《W908故障应急预案.docx》由会员分享,可在线阅读,更多相关《W908故障应急预案.docx(28页珍藏版)》请在冰点文库上搜索。
W908故障应急预案
W908故障应急预案
(V2010-10)
中兴通讯固网产品支持部
目录
第1章概述3
第2章应急处置基本原则4
2.1预防为主,积极准备4
2.2快速响应,迅速排障4
2.3及时总结,不断完善4
第3章适用范围5
第4章应急组织架构6
4.1组织职责和架构组成6
4.1.1组织职责6
4.1.2架构组成6
4.2WLAN产品应急保障团队人员组成6
4.2.1各办事处现场保障团队6
4.2.2WLAN产品线紧急故障保障小组6
第5章其它相关配合7
5.1备品备件的准备7
第6章故障类型分析8
6.1系统异常处理8
6.1.1查看设备配置信息8
6.1.2查看接口信息9
6.1.3查看端口流量10
6.1.4查看CPU及内存使用情况11
6.1.5查看设备路由表12
6.1.6系统日志检查12
6.1.7拨号业务检查12
6.1.8固定IP业务检查13
6.1.9DHCP业务检查13
6.1.10Radius对接状态检查13
6.2各模块功能维护及故障处理14
6.2.1以太网功能维护及故障处理14
6.2.2宽带接入业务异常处理16
6.2.3路由异常处理17
6.2.4组播故障功能异常处理18
6.2.5MPLSL3VPN功能维护及故障处理19
6.2.6ACL功能异常处理19
第1章概述
本应急预案针对ZTEWLAN通讯设备在商用运行过程中出现的重大故障、紧急故障而制定。
本案系结合ZTEWLAN的设备设计原理,业务功能实现方式和对接设备接口配合、特别是在多年通信网应急通信保障历史经验的基础上,制定了快速、高效、规范的应急预案,可应对各种商用网中出现的重大、紧急故障,把影响降低到最低,同时方案中增加了日常维护过程中的各种系统检查,提前排除隐患的内容。
应急方案中包括总组织架构、配合、物流、技术等各个方面,成立应急通信保障队伍,将责任落实到具体负责人,保证在紧急情况下能迅速行动,确保通信畅通。
第2章应急处置基本原则
2.1预防为主,积极准备
坚持“预防为主”的方针。
做好应对各种情况的准备、应急资源准备、保障措施准备和突发事件预想,充分利用现有资源,制定科学的应急预案,定期组织开展应急培训和应急演练,提高对各种突发事件,通信事故的应急响应和处置能力。
2.2快速响应,迅速排障
对于已经出现的重大、紧急故障,迅速启动紧急故障处理流程,快速响应,迅速形成现场排障小组,后方支持下小组进行故障定位处理。
相关现场负责人负责协调并确保各种排障资源的提供,组织用服、测试、研发支持保障,前后方配合迅速定位故障,排除故障。
2.3及时总结,不断完善
故障发生解决后,进行反思总结,对应急预案、应急培训和应急演练方面进行补充和完善,争取能够对重大故障进行成功的预防;对故障处理发现的技术问题、流程问题、资源问题和组织问题进行分析,并融入到系统应急方案中,提高对各种突发事件、应急通信事故的快速响应和迅速排障的能力。
第3章适用范围
本预案系所有商用的ZTEWLAN908设备在运行过程中的应急预案,使用与WLAN网在下述情况下的重大通信保障或通信恢复工作。
1、紧急、重大通信事故
2、重大节假日通信保障工作
3、重大自然灾害、恐怖袭击、事故灾难
4、重大活动的保障工作和应急故障处理
5、国家或者运营商要求的重要通信保障任务
该预案专门针对中兴WLANW908产品出现严重或重大故障,严重影响用户的正常使用的应急处理措施。
第4章应急组织架构
4.1组织职责和架构组成
4.1.1组织职责
应急组织主要负责组织协调网络安全相关工作,包括制定重大专项安全保障方案和应急预案、评估重大安全风险并研究改善措施、组织落实的通信保障任务、应急培训、应急演练和重大紧急故障的组织处理等。
4.1.2架构组成
现场保障团队包括营销办事处领导和产品经理、技术支持工程师等人员,同时包括物流方面、工具方面、资料方面的相关人员。
后方保障团队包括后方产品用服领导、技术专家、可支配的能够现场出差的技术支持工程师等。
4.2WLAN产品应急保障团队人员组成
4.2.1各办事处现场保障团队
姓名
职位
手机
负责内容
4.2.2WLAN产品线紧急故障保障小组
姓名
职位
手机
负责内容
第5章其它相关配合
5.1备品备件的准备
系统正常运行期间,按照合理比率,做好备品备件的准备和管理工作、做好故障单板的返修工作,做到有硬件故障及时更换处理和返修,防止在重大节假日或者应急故障时,由于备件不足或者平时故障硬件没有更换造成延误故障定位和解决。
第6章故障类型分析
6.1系统异常处理
6.1.1查看设备配置信息
项目
查看设备配置信息
检查内容
使用showrunning-config命令查看AC的配置信息
正常情况
正常情况下,能看到类似下面的信息。
配置信息应当完整,且与用户实际配置一致
ZCZWLAN-AC-1-BACKUP#showrunning-config
thisistherunningconfigfile
configterminal
hostnameCZWLAN-AC-1-BACKUP
systemmodefit-ap
systemdata-tunnellayer2
wirelessdata-syncenable
wirelessap-tunnel-port5248
wirelesslocal-tunnel-ip192.168.1.101
igmp-proxyturnon
wirelessunicast-separate
ipdhcpserver192.168.1.98
interfaceGigabitEthernet1/1.0
descriptionCONN-TO-SE800*1
duplexfull
port-trunk
interfaceGigabitEthernet1/0.0
duplexfull
descriptionTO-C7609*G3/12
ipaddress192.168.1.98255.255.255.252
port-access
interfaceGigabitEthernet1/2.0
ipaddress192.168.1.101255.255.255.252
ip-poolwtp-1l3
ipnetwork172.16.1.0255.255.255.0192.168.1.97
alloc-modelocaldhcp
default-router172.16.1.1
reservedip172.16.1.1
max-lease30
option-60ac-manage-ip192.168.1.102
option-60enterprise-code3902
option-43ip-list192.168.1.102
available-interfaceport0
iproute0.0.0.00.0.0.0221.195.251.97
……
异常情况
1.配置信息丢失不完整。
2.配置信息显示与用户实际配置不符
异常情况处理
1.如果配置信息丢失不完整,首先检查业务是否正常,如果业务正常,那么更换登录方式查看,如果是使用串口登录,确认登录软件为WINDOW系统自带超级终端,更换PC机测试,如果仍然看不到信息,尝试TELNET登录进行查看。
如果以上操作后,配置信息依然显示不完整,可能是软件出现异常,请联系ZTE客户支持中心,做进一步处理。
2.如果是配置信息显示与实际配置不符,首先检查用户实际配置是否生效,如不生效,可能是没有配置上去,尝试重新配置。
如果配置已经生效,但是没有显示,查看手册,检查是否该项为默认配置,默认配置在showrun中不显示。
如果配置已经生效,而显示的配置与实际生效配置相反,不一致,那么可能为此版本显示问题,请联系ZTE客户支持中心,做进一步处理
6.1.2查看接口信息
项目
查看接口信息
检查内容
使用showinterface命令查看接口状态
正常情况
能看到类似下方的接口信息。
需要带业务接口状态均为UP
CZWLAN-AC-1-BACKUP#showinterface
GigaEthernet1/0:
====================
Ethernetaddressis00:
25:
12:
99:
12:
7e
LinelinkstateisUP
AdminstateisUP
Workmodeis1000m,full
606028(591.844k)packetsreceived
64bytes:
67687(66.103k)
65--127bytes:
84851(82.883k)
128--255bytes:
84042(82.074k)
256--511bytes:
66013(64.477k)
512--1023bytes:
122897(120.017k)
1024--1518bytes:
180538(176.314k)
1519--1530bytes:
0(0)
509823(497.895k)packetssent
64bytes:
10917(10.677k)
65--127bytes:
92811(90.651k)
128--255bytes:
82161(80.241k)
256--511bytes:
23526(22.998k)
512--1023bytes:
57151(55.831k)
1024--1518bytes:
243257(237.569k)
1519--1530bytes:
0(0)
49899(48.747k)multicastpacketsreceived
0(0)multicastpacketssent
0(0)inputerrors,0(0)outputerrors
0(0)drops
rcvdrateis2
(2)packets/s,128(128)/s
sentrateis2
(2)packets/s,129(129)/s
ge(unitnumber1/0.0):
Flags:
(0x63)UPBROADCASTARPRUNNING
Type:
ETHERNET_CSMACD
Internetaddress:
192.168.1.98
Broadcastaddress:
192.168.1.99
Netmask0xffffff00Subnetmask0xfffffffc
异常情况
1.端口状态为DOWN
异常情况处理
1.端口状态为DOWN,可能是对应的接口做了shutdown操作,进入到接口配置模式下,执行noshut命令。
3.如果端口状态为up,但是端口仍然无法正常工作,可查看端口协商模式,确认端口与对端协商模式一致。
6.1.3查看端口流量
项目
查看端口流量
检查内容
查看端口流量也是日常维护时需要做的,主要目的是查看相关端口流量是否正常,若端口出现流量异常,很可能导致端口流量拥塞,使正常业务受到影响。
查看端口信息的命令为showinterfaceXX
正常情况
端口
GigaEthernet1/0:
====================
Ethernetaddressis00:
25:
12:
99:
12:
7e
LinelinkstateisUP
AdminstateisUP
Workmodeis1000m,full
606028(591.844k)packetsreceived
64bytes:
67687(66.103k)
65--127bytes:
84851(82.883k)
128--255bytes:
84042(82.074k)
256--511bytes:
66013(64.477k)
512--1023bytes:
122897(120.017k)
1024--1518bytes:
180538(176.314k)
1519--1530bytes:
0(0)
509823(497.895k)packetssent
64bytes:
10917(10.677k)
65--127bytes:
92811(90.651k)
128--255bytes:
82161(80.241k)
256--511bytes:
23526(22.998k)
512--1023bytes:
57151(55.831k)
1024--1518bytes:
243257(237.569k)
1519--1530bytes:
0(0)
49899(48.747k)multicastpacketsreceived
0(0)multicastpacketssent
0(0)inputerrors,0(0)outputerrors
0(0)drops
rcvdrateis2
(2)packets/s,128(128)/s
sentrateis2
(2)packets/s,129(129)/s
ge(unitnumber1/0.0):
Flags:
(0x63)UPBROADCASTARPRUNNING
Type:
ETHERNET_CSMACD
Internetaddress:
192.168.1.98
Broadcastaddress:
192.168.1.99
Netmask0xffffff00Subnetmask0xfffffffc
异常情况
1.端口流量不正常
2.多次showinterface发现数据包急增
异常情况处理
1.查看端口状态,确认链路是否工作正常,并确认下行用户数及并发流量,确认链路带宽是否足够,是否需要扩容数据。
2.多次showinterface发现数据包急增,首先检查业务是否正常,如果此时业务也不正常,查看系统告警,如果有大量IP不同的地址漂移告警,很可能就是下面的网络中发生的广播风暴或者有病毒攻击,请检查该接口下的网络环境,确保没有环路,并可以通过下层设备的端口流量和MAC地址确定攻击源
6.1.4查看CPU及内存使用情况
项目
查看CPU及内存使用情况
检查内容
在特权模式下,使用showcpuusage命令查看CPU以及内存使用情况
正常情况
CZWLAN-AC-1-BACKUP#showcpuusage
CPUusagerateis:
17.73%
CPUhistoryinformation:
Systemrunningtime:
31days,13:
00:
14,CPUusagerate:
18.44%
Systemrunningtime:
31days,12:
55:
14,CPUusagerate:
18.41%
Systemrunningtime:
31days,12:
35:
14,CPUusagerate:
18.41%
Systemrunningtime:
31days,12:
05:
14,CPUusagerate:
17.38%
Systemrunningtime:
31days,11:
05:
14,CPUusagerate:
17.38%
CPU利用率一般不应超过50%
异常情况
CPU利用率居高不下,达到80~90%
异常情况处理
如果CPU利用率达到80~90%,首先检查业务是否受影响,一般来说,在CPU达到80~90%甚至更高时,业务多少会受到影响,此时检查设备日志信息,此时如果CPU利用率高,可能是受到网络病毒攻击,重点是查看系统日志,查找攻击源,同时请联系ZTE客户支持中心,做进一步处理
6.1.5查看设备路由表
项目
查看设备路由表
检查内容
在特权模式下,使用showiproute命令查看本地路由表是否正常
正常情况
可以看到各类的路由条目,并且多次用showiprouter命令看到显示路由条目数比较稳定
异常情况
1.多次用showiprouter命令查看路由条目时,动态路由条目变化频繁。
2.路由学习不正确,应该学习到的路由没有被学习到
异常情况处理
1.多次用showiprouter命令查看路由条目时,如果动态路由条目变化频繁,说明网络中存在路由振荡,容易导致网络丢包和间隙性的通断。
需要察看具体协议的配置。
2.如果路由学习不正确,请检查当前的路由配置,以及对端路由器的配置。
如果都确认没有问题,请联系ZTE客户支持中心,做进一步处理
6.1.6系统日志检查
项目
系统日志检查
检查内容
在特权模式下,通过showlogging命令来查看系统记录的日志
正常情况
可以看到系统的一些告警信息,如端口UP/DOWN等,但是系统没有严重告警
showlogging
Consolelogging:
level7
Minitorlogging:
level7
LogBuffer(22080bytes):
%NetManager-3:
04/06/0319:
03:
16ARemotelogout,Name:
bnas,IP:
222.223.36.50,2003/4/619:
3:
16
CZWLAN-AC-1-BACKUP#%NetManager-3:
04/07/0311:
43:
51ARemotelogin,Name:
bnas,IP:
222.223.36.50,2003/04/0711:
43:
51
CZWLAN-AC-1-BACKUP#%NetManager-3:
04/07/0311:
44:
23ARemotelogout,Name:
bnas,IP:
222.223.36.50,2003/4/711:
44:
23
异常情况
看到异常告警
异常情况处理
6.1.7拨号业务检查
项目
拨号业务检查
检查内容
在radius认证、本地认证和不认证情况下由用户进行PPP拨号
正常情况
在radius认证情况下用户根据正确的用户名和密码能通过认证,错误的用户名和密码出现691错误;本地认证时只能根据本地配置的用户名和密码才能通过认证,否则出现691错误;不认证时输入任何非空用户名密码都能通过认证
异常情况
用户使用正确的用户名/密码不能通过认证
1.出现691错误
2.出现678错误
异常情况处理
1.若出现691错误则是用户名/密码错误,可检查设备是否要求用户拨号时带正确域名,用户帐号在radius服务器是否显示已经在线,ippool配置是否正确及够用,与radius的通信是否正常。
2.若出现678错误则是客户端PC未能发现AC设备,可检查下连端口配置情况及下联交换机VLAN配置情况,并检查ZXUAS设备是否有CPU资源可响应用户接入请求。
若还不能定位,请联系ZTE客户支持中心,做进一步处理
6.1.8固定IP业务检查
项目
固定IP业务检查
检查内容
固定IP用户的上网情况
正常情况
固定IP用户在手动配置IP地址后即可正常上网
异常情况
用户手动配置IP地址后无法上网
异常情况处理
1.查看ip-host配置是否正确
2.查看接用户的子接口VLAN配置是否正确
3.检查下连设备看用户是否处于正确的VLAN中
4.检查AC和用户客户端是否进行了静态ARP绑定
5.检查用户终端IP地址及网关、DNS是否配置正确
若还不能定位,请联系ZTE客户支持中心,做进一步处理
6.1.9DHCP业务检查
项目
DHCP业务检查
检查内容
用户获取DHCP情况
正常情况
用户电脑能正确获取IP地址并能正常上网
异常情况
用户电脑不能正确获取IP地址或者获取到IP地址后无法上网
异常情况处理
1.检查DHCP配置是否正确
2.检查用户是否处于正确的VLAN中
3.检查用户端是否设置禁止自动获取IP地址
4.若用户能正确获取IP地址却不能上网可检查是否做了限制访问策略
5.是否给用户分配了正确的DNS
若还不能定位,请联系ZTE客户支持中心,做进一步处理
6.1.10Radius对接状态检查
项目
Radius对接状态检查
检查内容
检查与radius服务器的通信是否正常
正常情况
telnet或者串口登陆AC,使用ping命令能ping通radius认证和计费服务器,用户使用正确的用户名/密码能通过认证并正常计费
异常情况
无法与radius服务器通信、认证状态或者计费状态异常
异常情况处理
1.检查AC到radius服务器路由是否可达并畅通
2.检查AC上与radius服务器对接的协议参数是否正确
3.检查radius服务器是否可正确识别AC设备
若还不能定位,请联系ZTE客户支持中心,做进一步处理
设备无法启动
设备在重启时无法从FLASH正常启动
W901不能正常启动:
W901启动时需要5分钟左右,如果5分钟后,设备还不能完成启动,说明设备出现异常,使用串口连接设备的CONSOLE口,看是否能够进入拯救模式,如果可以,进入拯救模式执行命令rescue恢复版本,如果不能进入,看串口是否有打印信息,收集启动信息,联系ZTE客户支持中心,做进一步处理
6.2各模块功能维护及故障处理
6.2.1以太网功能维护及故障处理
6.2.1.1ARP功能维护
项目
ARP功能维护
检查内容
showarpinterfacexxx查看各个接口下的ARP,使用PING命令测试是否能够互通。
正常情况
设备能够正常学习到其他设备的ARP,对端设备也可以学习到本端的ARP,设备之间互PING可以PING通
正常情况的showarpinterface示例:
异常情况
1.学习不到对端设备的ARP
2.对端学习不到本端的ARP
异常情况处理
1.
2.
如果以上测试定位仍然无法解决问题,请联系ZTE客户支持中心,做进一步处理
6.2.1.2链路聚合不成功
项目
链路聚合不成功
检查内容
showlacp
正常情况
AggState为selected状态
异常情况
AggState为unselected状态
异常情况处理
如果以上工作无法定位问题,请联系ZTE客户支持中心,做进一步处理
6.2.1.3链
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- W908 故障 应急 预案