环路故障专题案例分解.docx
- 文档编号:6564497
- 上传时间:2023-05-10
- 格式:DOCX
- 页数:58
- 大小:525.46KB
环路故障专题案例分解.docx
《环路故障专题案例分解.docx》由会员分享,可在线阅读,更多相关《环路故障专题案例分解.docx(58页珍藏版)》请在冰点文库上搜索。
环路故障专题案例分解
【交换机在江湖】环路故障专题(3)扁鹊问道下篇----临床案例
环路故障纷繁错杂,难寻其理。
愿广为搜罗现网案例,合览汇编,以求至简至约,开卷了如指掌。
1.1.1对接设备故障
1.1.1.1其他厂商设备上出现华为MAC地址漂移故障案例
涉及产品和版本
S交换机V200R002及先前版本
组网情况
如图1-1所示,防火墙设备上连接了三台交换机。
图1-1其他厂商设备上出现华为MAC地址漂移问题案例组网图
现象描述
防火墙设备上能够看到00e0-fc09-bcf9MAC地址的漂移,对防火墙的业务转发有影响。
原因分析
华为自研交换机上只有NDP会用00e0-fc09-bcf9作为协议报文的源MAC,而NDP是默认使能的,所以在这个场景中会导致防火墙设备报漂移,进而影响防火墙的转发;这个MAC地址发生漂移一般情况下对业务没有影响(如果设备上对MAC漂移配置了动作则除外)。
NDP协议报文是BPDU报文,而BPDU报文是不应该学习MAC地址的,交换机最新版本已经不会学习BPDU报文了,防火墙设备也不应该学习该MAC地址。
处理步骤
执行命令ndpdisable,去使能交换机全局NDP功能。
总结与建议
无。
1.1.1.2ATAE软件问题导致与交换机MSTP对接失败的故障案例
涉及产品和版本
S交换机所有产品和版本
组网情况
如图1-2所示,新接入的ATAE机框与Switch-1和Switch-2交换机组成口字型环路。
图1-1ATAE软件问题导致与交换机MSTP对接失败的故障案例组网图
现象描述
在启用STP后发现环路无法正常收敛:
Switch-1、ATAE-SW-8均为根桥,Switch互连端口、ATAE互连端口可正常收敛,而Switch-1、Switch-2与连接的其他ATAE机框STP无法正常收敛。
原因分析
Switch-1配置为根桥,设备的系统MAC为:
4c1f-cc82-d659。
新接入的ATAE机框软件版本为V200R013SPC005,该版本存在一个软件问题:
对于收到的根桥MAC以59结尾的STP报文不能正常处理。
处理步骤
1.检查各端口的STP收敛情况,发现存在两个根桥
Switch-1手动配置为STP根桥,ATAE-SW-8也选择为根桥:
MSTIDPortRoleSTPStateProtection
0GigabitEthernet0/7DESIFORWARDINGBPDU
0GigabitEthernet0/15DESIFORWARDINGNONE//ATAE互联
0GigabitEthernet0/18DESIFORWARDINGNONE//连接Switch-2
2.检查ATAE-SW-8GigabitEthernet0/18端口的STP信息和收发报文情况
ATAE-SW-8上没有部署任何业务,GigabitEthernet0/18端口入方向组播报文计数有增加,但displaystp信息中端口接收的MSTP报文计数一直为0:
Input(total):
818962packets,114519592bytes
757300broadcasts,24multicasts
----[Port18(GigabitEthernet0/18)][FORWARDING]----
PortProtocol:
enabled
PortRole:
CISTDesignatedPort
PortPriority:
128
PortCost(Dot1T):
Config=auto/Active=10000
Desg.Bridge/Port:
32768.80fb-06ad-6d07/128.18
PortEdged:
Config=disabled/Active=disabled
Point-to-point:
Config=auto/Active=true
TransitLimit:
3packets/hello-time
ProtectionType:
None
PortStpMode:
Stp
PortProtocolType:
Config=auto/Active=legacy
PortTimes:
Hello2sMaxAge20sFwDly15sRemHop20
BPDUSent:
82117
TCN:
0,Config:
3391,RST:
0,MST:
78726
BPDUReceived:
0
TCN:
0,Config:
0,RST:
0,MST:
0
3.对ATAE-SW-8GigabitEthernet0/18配置端口镜像,确认已经收到来自Switch-1的STP报文
经ATAE研发确认,出问题的ATAE交换板使用的是V200R013SPC005版本,该版本存在已知软件问题:
收到根桥MAC以59结尾的STP报文不能正常处理。
V200R013SPC006及以上版本已经解决该问题。
将根桥切换到Switch-2后,MSTP收敛正常。
VRP(R)Software,Version3.10,RELEASE0010
Copyright(c)2000-2008HUAWEITECHCO.,LTD.
uptimeis0week,0day,2hours,38minutes
OSTA2.0V200R013CN21XCBAswitchsystem
OSTA2.0V200R013CN21XCBAswitchversion:
V200R013SPC005
128MbytesSDRAM
16384KbytesFlashMemory
ConfigRegisterpointstoFLASH
HardwareVersionisVER.A
ReleaseLogicVersionis0x03
BackBoardHardwareVersionisVER.A
BackBoardLogicVersionis0x02
BackBoardTypeisCN21XCRA
升级ATAE交换板软件版本到最新的V200R013SPC007。
总结与建议
多设备形态的对接问题尽量控制在网络部署阶段。
对于与其他设备对接的STP问题,首先排查配置是否存在问题、报文收发是否正常。
1.1.1.3S交换机和CX600路由器端口UP时间不一致导致RRPP临时环路故障案例
涉及产品和版本
S交换机所有产品和版本
组网情况
如图1-3所示,S5700设备上配置RRPP协议,S5700_1和S5700_2分别作为RRPPdomain1和domain2的主结点,其他中间S5700做为RRPP传输结点,CX600路由器未配置RRPP协议,它们之间通过不同的VPLSVSI透传RRPP协议报文和数据业务。
图1-1交换机和路由器端口UP时间不一致导致RRPP临时环路问题案例组网图
现象描述
当CX600_1的1号板故障重启后,发现CX600_1设备GE1/1/1端口比S5700_1的GE0/0/1端口UP的时间滞后8s或者最长能达到1分钟,单板恢复后会形成几秒钟的临时环路,可能导致业务异常。
原因分析
4.CX路由器单板复位重启后,不管两边端口协商模式是强制或自协商,底层端口物理层状态都会先UP。
单板在配置恢复过程中,会检查配置恢复有没有结束,如果没有结束的话,就不取物理状态向软件层报UP事件,路由端口UP时间滞后可达到1分多钟。
CX路由器端口比交换机端口UP时间有很明显的滞后。
5.由于交换机端口先UP,RRPP协议会在端口UP以后6s放开临时阻塞,而路由器还没有向软件层报UP。
等到路由器软件层上报UP时,有的数据VSI已经先透传数据报文。
路由器的RRPPVSI可能起来得比较晚,或者起来可能短时间内也不能正常透传。
由于CX单板起来比较繁忙,而RRPP协议透传VSI还没有通,这时候就会形成临时环路,根据CX单板业务配置多少及其繁忙程度,可能有时临时环路会达到10s左右。
如果中间交换机受到严重冲击,环路恢复可能需要更长的时间。
处理步骤
CX路由器优化软件版本,加快UP事件的上报。
总结与建议
无。
1.1.2设备硬件连接问题
1.1.2.1S9300交换机单板松动导致RRPP未生效故障案例
涉及产品和版本
框式设备
组网情况
如图1-4所示,四台S9300组成RRPP环形组网。
工程师反馈客户组成RRPP环网后,主节点上的从端口没有被阻塞。
图1-1RRPP环形组网图
现象描述
一线工程师反馈客户组成RRPP环网后主节点上的从端口没有被阻塞。
原因分析
设备上主控板上HG口没有转发RRPP报文,原因为单板连接松动。
处理步骤
6.组成RRPP环网后主节点上的从端口未被阻塞,初步怀疑是RRPP协议功能下发存在问题。
7.执行命令displaydiagnostic-information,收集设备信息时,发现HG口未加入相应的控制VLAN。
推测可能是当时通道不稳定丢包导致部分设置没有下发成功。
8.对于通道不稳定的情况,进行单板插拔处理,发现问题不再发生,确认为单板连接问题。
9.重新插拔后,报文正常转发,故障解除。
总结与建议
协议下发失败,流量不通等问题,可以从光纤、光模块故障、单板连接不稳定等方面来进行排查验证,在环境允许的情况下可以进行光模块替换、单板重新插拔等硬件故障处理方法。
1.1.2.2设备连线错误导致环路风暴的故障案例
涉及产品和版本
S交换机所有产品和版本
问题现象描述及组网
如图1-5所示,某运营商工程网络部署阶段,未合理规划,连线非常复杂,在连线过程中误连接导致网络业务受影响。
图1-1连线错误导致协议环路失效风暴的故障案例
问题根因说明
现网中S交换机之间端口连接方式绝大多数使用Access类型,VLAN没有很好规划和隔离,连线非常复杂,非常容易误操作连线,导致环路后冲击上层核心设备。
问题判断方法
忽略判断方法,主要关注解决或规避方案。
解决方案
10.合理规划组网,VLAN合理划分,进行有效隔离,减少不必要的连线,增加风暴抑制功能。
11.复杂组网要经过正规流程评审。
12.网络开局调试阶段,必须shutdown和现网所有连接端口。
13.恢复新建和现网网络连接端口时,至少观察20分钟看端口上是否有异常的广播或组播流量,发现异常要立即shutdown上行端口。
14.若交换机端口灯有高速频繁闪烁或常亮的现象,可能端口上有大量流量转发,检查是否有环路。
经验总结
无。
1.1.3组网及配置变更
1.1.3.1服务器组网不合理引发交换机MAC地址漂移导致业务中断故障案例
涉及产品和版本
S交换机所有产品和版本
组网情况
如图1-6所示,两台服务器的两块网卡捆绑在一起,按照负载分担方式进行报文转发。
两块网卡对外体现同一个IP、同一个MAC。
图1-1框式交换机MAC和ARP漂移导致业务中断问题案例组网图
现象描述
Switch上持续出现MAC漂移告警。
Switch下挂服务器的ARP同时学习到交换机不同端口上,造成外网用户访问服务器业务时断时续,业务闪断。
原因分析
15.两台Switch连接服务器的端口一直存在物理UP/DOWN的异常情况,并且服务器的MAC地址一直存在漂移现象,此时两台Switch的互连端口以及下行连接服务器的端口上都学习到服务器的MAC地址。
16.当用户通过Switch-1访问服务器时,Switch-1会根据MAC地址表项找寻出接口,由于MAC漂移导致出接口有两个(下行连接服务器的接口GE4/0/9y以及交换机互连端口Eth-Trunk1)。
当流量选择通过交换机之前的互连端口往外转发时,将被转发到Switch-2设备。
由于Switch-2学习到服务器的MAC也在中间互连端口,根据二层流量避免环路机制,此时会丢弃该报文,导致业务中断。
处理步骤
17.服务器采用负载分担捆绑,而对端是两台交换机,组网不对称。
建议将服务器运行模式从负载分担修改为主备模式。
同时也可以解决MAC漂移的问题。
18.如果有特殊需求必须使用负载分担方式以及跨设备组网,建议采用交换机集群,集群上采用链路负载分担方式。
总结与建议
组网规划前需要考虑环路风险,并给出规避措施。
1.1.3.2设备误接入网络触发根保护导致业务中断的故障案例
涉及产品和版本
S交换机所有产品和版本
组网情况
如图1-7所示,两台S系列交换机与ATAE交换板组成STP环。
ATAE交换板的两个slot可以看成两台交换机,内部通过GE0/15连接。
Swtich-1配置为根桥,Switch-2配置为副根桥,Switch-1和Switch-2之间创建Eth-Trunk0。
正常时阻塞口在ATAE-slot8GE0/19端口。
两台S交换机部署VRRP功能,并作为ATAE的网关。
图1-1报文触发根保护导致业务中断的故障案例组网图
现象描述
网络故障时ATAE交换板经交换机的业务中断。
现网将Swtich-1下电后暂时业务恢复。
原因分析
Switch-1连接Switch-2、ATAE交换板的端口均配置根保护,一台优先级更高的O&M交换机错误连入该网络后,触发根保护生效,所有配置根保护的端口都被阻塞,业务中断。
处理步骤
故障发生时,在两台交换机上查看VRRP状态,发现均为Master,推断VRRP心跳报文转发出现问题。
VRRP心跳报文正常是通过两台交换机间的Eth-Trunk转发。
如果故障时Eth-Trunk协商失败、STP重新收敛,心跳报文应该可以通过ATAE交换板进行转发。
将Switch-1重新上电,但不连接到网路中。
检查Switch-1的配置文件,发现Switch-1上所有UP端口都配置了STP根保护:
stproot-protection。
对于设置了根保护的端口,一旦收到了优先级更高的STP报文,这些端口的状态将被设置为阻塞状态,不再转发报文。
由于Switch-1已经重启过,无法确认故障时是否确实收到了更高优先级的报文,只能根据ATAE交换板的STP历史计算信息进行分析。
从ATAE交换板上采集的STP历史计算信息发现,slot8上的端口GE0/19收到了来自000f-e2f6-1d18设备且优先级为0的STP报文,并触发了STP重新计算:
GigabitEthernet0/19Alte->Desiat2011/10/2904:
38:
06
{0.5489-98f5-26bf184096.5489-98f5-834d04096.5489-98f5-834d128.18}
GigabitEthernet0/17Desi->Rootat2011/10/2904:
38:
06
{0.000f-e2f6-1d1800.000f-e2f6-1d1800.000f-e2f6-1d18128.16}
GigabitEthernet0/15Root->Desiat2011/10/2904:
38:
06
{0.5489-98f5-26bf2000032768.0018-8200-5428032768.0018-8200-5428128.14}
STP协议根据桥ID即(桥优先级,系统MAC)进行根桥选择,当桥优先级相同时,系统MAC小的设备桥ID更小,优先级更高。
故障发生时,ATAEslot8收到了比原根桥Swtich-1(0.000f-e2f6-26bf)优先级更高的STP报文(0.000f-e2f6-1d18),导致Switch-1上配置STP根保护功能的端口被阻塞。
两台交换机间的VRRP心跳报文无法转发,出现VRRP双主、业务中断的现象。
经排查,000f-e2f6-1d18为GE0/17下挂网络的一台O&M交换机的系统MAC,故障期间被错误连入网络中。
此时,需要将ATAE上不在STP环中的端口去使能STP。
总结与建议
在使用根保护固定根桥位置时,需要考虑到网络中如果确实出现高优先级报文抢占根桥,在端口配置根保护时对业务转发的可能影响,提前避免这种场景出现。
1.1.3.3网络改造引发环路导致业务闪断故障案例
涉及产品和版本
S9300V100R003C00SPC200
组网情况
如图1-8所示,在网络迁移改造后,将原网中的核心层设备部署为接入层设备AS,即从三层变为二层。
DS_01和DS_02部署VRRP功能。
图1-1环路引起的业务时通时不通问题组网图
现象描述
三层设备DS向二层设备AS的管理IP地址发起Ping测试,发现时通时不通,并且发现DS上的VRRP主备状态在频繁的切换。
在DS_02上出现如下告警信息:
Sep17201321:
46:
11+08:
00DS_02VRRP/3/VRRPMASTERDOWN:
OID1.3.6.1.4.1.2011.5.25.127.2.30.1ThestateofVRRPchangedfrommastertootherstate.(VrrpIfIndex=143,VrId=48,IfIndex=143,IPAddress=11.91.127.239,NodeName=DS_02,IfName=Vlanif948,CurrentState=2,ChangeReason=prioritycalculation)
Sep17201321:
46:
11+08:
00DS_02%%01VRRP/4/STATEWARNINGMEV1R3(l):
VirtualRouterstateBACKUPchangedtoMASTER,becauseofprotocoltimerexpired.(Interface=Vlanif948,VrId=48).
Sep17201321:
46:
11+08:
00DS_02%%01VRRP/4/STATEWARNINGMEV1R3(l):
VirtualRouterstateMASTERchangedtoBACKUP,becauseofprioritycalculation.(Interface=Vlanif948,VrId=48)
.
VRRP状态在不停的切换,查看VRRP状态,都为Backup状态正常:
VRIDStateInterfaceTypeVirtualIP
--------------------------------------------------------
3BackupVlanif903Normal10.93.4.30
5BackupVlanif599Normal11.91.127.94
14BackupVlanif914Normal10.93.41.126
24BackupVlanif924Normal10.93.32.126
25BackupVlanif925Normal10.93.32.254
…………
原因分析
网络中存在环路。
处理步骤
19.执行命令displaycpu-defendvrrpstatisticsall,查看VRRP协议报文统计信息,发现DS_02上有大量丢包。
[DS_02]displaycpu-defendvrrpstatisticsall
Statisticsonmainboard:
-------------------------------------------------------------------------------
PacketTypePass(Bytes)Drop(Bytes)Pass(Packets)Drop(Packets)
-------------------------------------------------------------------------------
vrrp0000
-------------------------------------------------------------------------------
Statisticsonslot1:
-------------------------------------------------------------------------------
PacketTypePass(Bytes)Drop(Bytes)Pass(Packets)Drop(Packets)
-------------------------------------------------------------------------------
vrrp0000
-------------------------------------------------------------------------------
Statisticsonslot4:
-------------------------------------------------------------------------------
PacketTypePass(Bytes)Drop(Bytes)Pass(Packets)Drop(Packets)
-------------------------------------------------------------------------------
vrrp798800662142581617736117464477737950869
-------------------------------------------------------------------------------
20.执行命令displayinterfacebrief,查看设备端口带宽利用率信息。
[DS_02]displayinterfacebrief
…………
InterfacePHYProtocolInUtiOutUtiinErrorsoutErrors
Eth-Trunk1upup31%31%00
GigabitEthernet4/0/22upup0.72%81%00
GigabitEthernet4/0/23upup81%0.73%20
Ethernet0/0/0downdown0%0%00
…………
GigabitEthernet4/0/0upup0%81%00
GigabitEthernet4/0/1upup
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 环路 故障 专题 案例 分解