宽带网络故障定位指导书.docx
- 文档编号:9878594
- 上传时间:2023-05-21
- 格式:DOCX
- 页数:37
- 大小:142.42KB
宽带网络故障定位指导书.docx
《宽带网络故障定位指导书.docx》由会员分享,可在线阅读,更多相关《宽带网络故障定位指导书.docx(37页珍藏版)》请在冰点文库上搜索。
宽带网络故障定位指导书
宽带网络故障定位指导书
修订记录
日期
修订版本
描述
作者
第1章网络故障概述1
1.1常见故障分类1
第2章上网速度慢故障分析2
2.1用户客户端问题2
2.2网络服务器(web站点或其他网络服务器)问题2
2.3网络侧具体网络设备问题3
2.3.1案例一:
某网络公司反馈用集团帐号上网速度始终很慢,ping网关时延很大并有丢包。
但使用网通出口的用户网络速度正常。
3
2.3.2案例二:
BAS下用户上网速度慢的问题一般定位方法3
2.4网络结构问题4
2.4.1带宽分析4
2.4.2案例:
不能点拨VOD的问题处理方法6
2.4.3以太网络(内网)6
2.4.4IP网络(外网)7
2.5网络攻击问题8
2.5.1网络攻击案例一:
8
2.5.2检测网络攻击手段之一:
LANSWITCH端口镜像的应用8
第3章用户端口掉线10
3.1LAN用户掉线10
3.2用户打游戏“掉线”和“卡壳”问题10
第4章数据包丢失12
4.1Ping程序参数说明12
4.2Ping大包不通13
4.3Ping大包丢包13
4.4Ping小包丢包13
4.5Ping包时延过大14
第5章其他问题引起的网络故障14
5.1NAT问题14
5.1.1案例一:
NAT应用层网关不支持某些协议引起的网络不通问题14
5.1.2案例二:
NAT转换时使用IPPOOL中不同IP引起的问题15
5.1.3案例三NAT对分片(Fragmentation)IP报文的处理15
5.2没有保存数据,设备重启引起部分用户数据丢失16
第六章常见故障案例分析17
6.1PPPOE拨号出现的错误代码以及常用解决方法17
6.2用户使用路由器,因路由器设置不当问题导致上网速度慢20
6.3用户使用路由器,因连接线不当问题导致上网速度慢,并影响其他用户21
6.4用户电脑使用了冰点还原软件,导致所有设置失效,每次重启电脑都需要再次设置网卡参数21
6.5由于病毒广播报文影响集团用户上网速度慢而网通出口无问题。
22
6.6故障现象:
无法登入公司用户管理平台24
附录一:
通过ACL过滤防范网络攻击24
关键词:
故障处理宽带产品网络
摘要:
本文针对宽带网络中常见网络故障现象和故障定位方法进行了描述。
本文侧重点是网络运行过程中的网络故障处理,针对单个厂家产品的故障请参考各厂家的产品故障定位指导书。
此指导书仅做参考,具体故障还需具体问题具体分析。
缩略语清单:
参考资料清单:
第1章网络故障概述
1.1常见故障分类
针对目前网上问题和常见故障,根据故障现象等因素作了以下分类。
1)上网速度慢
●用户客户端问题(含客户端机器问题和客户端组网问题);
●网络服务器问题(WEB/DNS服务器问题);
●网络侧具体网络设备问题;
●网络结构问题(网络侧组网、流量问题);
✓带宽分析
✓以太网络
✓IP网络
●网络攻击问题
2)用户端掉线
●拨号用户掉线
●以太端口协商问题
3)数据包丢失
●ping大包不通
●ping大包丢包
●ping小包丢包(超时网络速度慢引起,端口协商问题)
4)部分业务中断案例
●NAT部分业务不支持
没有保存数据,设备重启引起部分用户数据丢失。
第2章上网速度慢故障分析
上网速度慢是一个比较复杂问题(从用户PC到他需要访问的目的网站,中间任何一个环节出现了问题都将出现网速慢的现象)。
对于我们用户来说,最关心的是如何解决这个问题;而对于设备供应商来说,主要需要定位问题是否由其自身的设备问题所引起还是由于网络其他原因所致。
是以遇到这类问题时需要有一个定位问题的基本思路,这样能帮助我们在日常维护中有条不紊地找到问题的真实原因,我们大致可以从以下几个方面着手:
(1)用户客户端问题(含客户端机器问题和客户端组网问题);
(2)网络服务器问题(WEB/DNS服务器问题);(3)网络侧具体网络设备问题;(4)网络结构问题(网络侧组网、流量问题);(5)网络攻击问题。
2.1用户客户端问题
该类问题定位思路如下:
1)若只是用户局域网(企业内部和网吧内部)内部个别机器出现上网速度慢的问题,主要从该问题机器本身找原因(机器硬件原因、软件原因等等)。
2)若整个局域网内所有机器均出现上网速度慢的问题,适当的时候可以断开局域网组网,将广域网入口处直接挂一台好的PC做上网测试。
如果此时问题解决,则证明问题可能出在局域网内部组网上(代理服务器原因,内部路由器原因,内部交换机硬件原因等等。
)
3)情况中若用户广域网入口处接一台好的PC做上网测试也存在同样上网慢的问题,则需要排除用户侧的问题进一步向网络侧找原因。
2.2网络服务器(web站点或其他网络服务器)问题
明确用户反应的上网速度慢的具体情况如何。
1)出现以下情况者,可高度怀疑是个别网站的WEB服务器问题:
1、打开某个网站的网页十分慢,或根本打不开,而打开其它网站网页(特别是一些大型的门户网站)正常;
2、从多处PING该WEB服务器的IP地址不通或丢包严重。
2)出现下列故障,可高度怀疑是DNS服务器问题:
1、浏览器的状态条中长时间提示“正在连接站点XXX....”(其中XXX为连接的URL名称);
2、直接输入网站的IP地址,可迅速打开网页;
3、可以PINGDNS服务器来确定到底是不是DNS服务器的网路出现了问题。
现在电信的DNS服务,有些由于安全原因禁止PING了,那我们可以通过nslookup来进一步定位问题。
2.3网络侧具体网络设备问题
如果发生用户网速慢的问题被定位在网络侧(主要是局端的网络设备),要想验证此类问题比较理想的手段是在局端上行设备(从接入层设备到汇聚层设备)上依次分别直接挂接一个FTP服务器,然后再分别在用户端直接用计算机进行FTP下载来测试速度。
这样哪层设备出了设备上的硬件问题可以被进一步准确定位。
为了更进一步证明不是接入层或汇聚层设备问题,也为了更进一步定位问题,可以在连接的上层设备上(一般是L3)连接一台FTP或HTTP服务器,并在用户端进行下载或浏览测试,倘若正常,则说明接入层或汇聚层设备和上层设备都没问题,倘若在L3上就比较慢,则考虑下列可能出现故障的地方:
1)接入层或汇聚层设备与上层连接的设备之间的链路问题,如果为以太网链路,可以考虑协商是否有问题;
2)可以通过下列手段进一步确认问题到底出现在哪方面:
1、在用户端PING接入层或汇聚层设备上行端口IP地址(可以变换PING的延迟和数据包尺寸),倘若不正常,可怀疑接入层或汇聚层设备问题,这时候往往是产品局部问题,可以向产品厂家工程师寻求解决;
2、倘若PING接入层或汇聚层上行端口IP地址正常,而PING接入层或汇聚层设备连接的上层设备接口IP地址有问题(不通或丢包严重),则可以初步断定是上层设备问题(过度拥塞或受到攻击)。
业务需求紧急时立即恢复方法,可以尝试下列手段:
1、在接入层或汇聚层连接的上层设备上(一般是L3)的接口进行复位(如果是以太网接口,确认双方配置的协商模式);
2、倘若接入层或汇聚层设备连接的上层设备业务量不是很大,可以考虑复位整机;
3、倘若接入层或汇聚层设备连接的上层设备业务量很大,可以考虑复位连接设备的单板。
注意:
在做上述任何一种操作前,一定保存配置信息和告警信息。
2.3.1案例一:
某网络公司反馈用集团帐号上网速度始终很慢,ping网关时延很大并有丢包。
但使用网通出口的用户网络速度正常。
如果出现这种情况,到网通的出口速度正常,到集团网络出口不正常;则从融合网关往集团出口的这一条链路当中,每一个环节都可能存在问题。
我们首先建议检查交换机的CPU占用率,以及各端口的流量情况。
防止广播报在集团网络内部蔓延。
另外,用户的终端问题也会导致上网速度慢,比如病毒、MODEM故障等问题。
2.3.2案例二:
BAS下用户上网速度慢的问题一般定位方法
如果BAS下用户可以上网,但是上网的速度达不到正常的速度,比如:
点播VOD不连贯、下载文件的速度很小等等,此时可能的原因有如下几种:
1)BAS对用户做了流量控制及优先级控制(CAR)
2)用户到目的网站之间存在其它网络瓶颈
3)线路原因
4)客户自身设备限制
5)其它设备对用户做了流控
6)工作模式协商不一致
BAS可以对用户进行流量控制,从而提供差异化的服务,当用户的上网速度比较慢时,我们首先应当确认BAS为用户提供的CAR值。
对BAS下的用户,其CAR值可能在用户名中限制,也可能在域下限制,而且只要域下面的流控是打开的(默认流控),无论在用户属性中设置的CAR值是多少都以默认的流控为准。
在实际网络的使用中,用户的速度往往达不到理论的速率,这是正常的,因为从BAS到用户这一段的带宽是独占的,可以达到10-100M,而从BAS到目的网站之间要经过多级路径,这些路径的带宽是共享的而且是有限的,因此会随用户数的多少而有所不同,因此,在遇到上网速度慢的时候,我们还应当确认是否是网络中的其它瓶颈的问题。
简单的判断方法可以访问一个近端的服务器,比如直接挂在BAS下面的服务器,看看速度是否正常。
对于BAS通过光纤上行时,我们应当注意是否距离过长,如果传输的距离超过了自身类型所能达到的距离,会因为线路的质量而导致速率下降。
同时,即使传输距离在允许的范围内,我们可以测量光纤接口的光功率是否正常来判断线路的质量。
当与其它设备对接时,如果两端的设备允许不同的工作模模式,比如BAS的FE口就有自协商、10M全双工、10M半双工、100M全双工、100M半双工五种工作模式,GE口也存在自协商、1000M全双工、1000M半双工等工作模式,当两端设备对接的端口工作模式不一致时也会导致网络性能的急剧下降。
我们可以查看两端端口的协商模式,一般来说,两端的端口只要工作于自协商状态就会协商允许的最高速率,例外时如果协商的速率太低,我们可以强制把端口都设置为更高速率,比如把FE口设置为100M全双工,把GE口设置为1000M全双工。
如果BAS上行还相联其它设备如8808、8805等,因为这些设备也可以对用户或端口做流量限制,此时我们也应当了解这些设备对流量控制的设置情况。
除了以上的原因外,客户自身的硬件也是一个值得关注的地方。
不同的硬件可以达到的速度是有区别的,一个10M的网卡是如何也跑不出100M的速率的。
2.4网络结构问题
2.4.1带宽分析
网络带宽瓶颈是影响上网速度主要原因之一。
如下图所示,宽带城域网组网模型,网络带宽可能成为瓶颈,对于不同运营商有所不同。
对于网通和中国电信Internet出口不是瓶颈,对于广电和铁通等出口带宽有可能形成瓶颈。
对是在骨干层、汇聚层、接入层是否形成瓶颈或某两台设备之间是否形成带宽瓶颈,可以通过网管系统进行流量统计监控,如果带宽利用率超过了50%就应该考虑扩容了。
图2-1城域网组网示意图
网络受到DoS攻击也是引起上网速度变慢的一个主要原因,这是流量带宽被大量占用造成上网速度显著变慢甚至造成整网中断。
对此问题最好通过网管系统对各端口流量进行实时监控。
接入层(EOC-LAN接入)
考虑到宽带应用与窄带的不同,宽带应用以IP应用为主,不面向连接,所以主要考虑的因素是流量和带宽的占用,但是由于ONU和EPON等接入用户方面的考虑,他们所带用户数量限制也是考虑的因素;
与普通局域网不同的是宽带应用给用户限制了带宽和时长,这些都是计算设备负载能力和确定流量模型要考虑的基本因素。
设备和网络负载能力:
连接数量:
每个ONU建议带50户以下;
每个EPON建议带1500户一下;
上面的计算是设备不考虑收敛比的设备极限能力,下面综合分析一下各种接入业务的流量类型:
A、专线用户,主要是网吧用户
目前,用户的开通一般采用UBR业务,账号限速,网吧一般为8M、10M、100M等,每个网吧30-60台计算机不等(主要业务包括上网和打游戏),粗略计算可以认为在高峰期(晚18:
00-24:
00)按平均40台有人上机计算(考虑网吧内部打游戏不占出口带宽,玩QQ基本不占带宽,按照10台有上网流量),所以估算时可以用每个网吧10*0.1M=1M。
例如一个ONU下有5个网吧,那么占用带宽5M;
其他的公司用户较少,而且其上网时间为白天,带宽利用率不高,可以不考虑。
B、个人用户,通常采用PPP拨号接入。
一般开通流量2M、4M等。
一般用户上网浏览时平均带宽100K即够,即使考虑下载和游戏等应用,按照150K应足够。
目前,一般计费采用包月制,同时上线用户平常高峰期(晚上)约40%,极限情况70%。
所以这些用户的总的带宽可以按下面公式计算:
1)同时上线用户比例:
=40%
2)平均带宽:
=150K
3)总带宽=(用户数×同时上线用户比例×平均带宽)
C、VOD应用的用户
通常开通带宽高的用户只是下载文件时突发流量较大,但用户不会总在下载,单次下载的时间不会太长,所以一般不考虑下载等应用,但VOD点播占用流量比较大,而且时间长,对网络负载有影响。
主要从以下几个方面考虑:
VOD是流媒体应用的一种,目前主要有基于REALPLAY和WINDOWSMEDIA等文件开发方法,不同的媒体数据流速率不同,适用不同范围,如在广域网上的REALPLAY流,可能只要400-480K就可以,但不很清晰,而且易掉线,可以做为上网应用的一种,暂不考虑。
在城域网内部(运营商开通的)的VOD服务器上实现的流媒体服务一般只要有1.5M左右,图像就可以比较流畅,能满足用户,这种应用比较普遍,主要制约在于服务器支持的媒体流的个数(成本很高),一般为100个以内。
占用带宽可以这样计算:
服务器支持的媒体流个数*1.5M
例如50个流,占用75M带宽,但这个流量不会上到骨干网上,一般在汇聚层的缓存服务器可以旁路掉。
综合上面的因素,接入侧应不会是瓶颈,用户占用带宽计算方式如下:
峰值总带宽=(个人用户数*同时上线用户比例0.4*平均带宽0.15M)+专线网吧用户数*网吧平均带宽+服务器支持的媒体流个数*1.5M。
2.4.2案例:
不能点拨VOD的问题处理方法
当用户反馈不能点播VOD的时候,建议用户在距离最近的网站下载一个大文件(20M以上),观察可以达到的最快下载速度。
如果此时用户下载速度很快,可以达到150KByte/s(2Mbps)左右。
则基本定位是VOD服务器的问题。
如果下载速度很慢,则考虑以下方面:
A、Ping网关延时是不是太大?
如果延时很大,超过60ms,建议检查内部网问题
B、看一看是不是有很多的广播报文或者未知单播报文。
有的时候,PC终端软件问题也可能会导致VOD不能点播或出现严重断帧现象,更换PC可解决问题。
2.4.3以太网络(内网)
在本地网中,网络慢往往是广播风暴引起的,这时候可以查看网络中是否存在物理的环路(比如,有人不小心把交换机的两个端口用网线连接起来,整个网络上的交换机形成了环路,比如,交换机A连接交换机B,交换机B连接交换机C,交换机C又连接交换机A等),如果发现,消除环路一般可以解决问题。
平时维护过程中,在网络的每台交换机上都启动生成树协议功能,这样可以避免环路发生。
广播网络广播风暴或冲突域过大引起上网速度慢。
冲突域过大和广播风暴是影响以太网速度的主要因素之一,其检测办法是在其广播域或冲突域的某个以太端口上接入测试设备。
可以是装有Sniffer/Netxray等软件的笔记本,也可以是一些网络专用仪器,如AglientAdvisor等。
通过检测统计系统功能可以方便检测出网络是否有广播风暴存在及影响的大小。
以太端口协商
以太端口协商出现不一致,是引起上网速度慢的另一个原因,下面是以太端口显示的信息。
Ethernet0isup,lineprotocolisup
Hardwareaddressis00-e0-fc-04-14-bf
Auto-Negotiationisenabled,Full-duplex,100Mb/s
Description:
QuidwayRouter,ethernetinterface
IPSendingFrames'FormatisEthernet_II
theMaximumTransmissionUnitis1500
5minutesinputrate41413.66bytes/sec,132.53packets/se
5minutesoutputrate226645.20bytes/sec,192.15packets/
Inputqueue:
(size/max/drops)
0/1000/0
Queueingstrategy:
FIFO
OutputQueue:
(size/max/drops)
0/75/0
83818888packetsinput,1246105516bytes,0nobuffers
110401210packetsoutput,2378652212bytes,0nobuffers
0inputerrors,0CRC,0frameerrors
0overrunners,0abortedsequences,0inputnobuffers
通过显示出的设置和协商信息出的信息可以判断两端是否一致。
如协商出速率和全双工或半双工等参数。
同时还可以产看出是否产生CRC错误等信息。
2.4.4IP网络(外网)
我们按照范围的不同对IP网络中上网慢的问题分类:
1、单个用户上网慢(一台设备下的单个用户);
2、整台设备下的用户上网慢;
3、一批设备下的用户上网慢;
4、整个城域网都慢。
第四个问题一般是出口问题,可以通过访问内部网站来判断,如果访问内部网站非常快,而访问出城域网的网站很慢,则肯定是出口问题,可以查看出口链路是否故障,路由是否丢失等,在这里不进行详细讨论。
针对单个用户上网慢的问题,我们可以从下列几个方面入手:
1、用户计算机问题,可以查看用户计算机的网络属性设置是否正确,并确定硬件配置是否跟实际符合等;
2、查看用户连接到设备的链路是否有问题(对于以太网链路,查看协商方式等);
3、可以在用户计算机上PING网关,看延迟是否正常(如果不正常,可以改变PING的延迟和数据包长度);
4、最后查看是否受到攻击,可以通过用户计算机的网卡指示灯查看,倘若网卡受到攻击(接收到大量的数据),则指示灯闪烁频率将非常高。
针对一台设备下的用户上网慢问题,我们可以从下列方面入手:
1、首先查看该设备的上行链路是否通畅,可以在设备上PING大量的大包来查看响应时间,如果大量丢包或响应时间太慢,则可能是链路问题,可以针对不同的链路类型进行进一步测试,比如是光纤,则测试其误码率,GE或FE链路,则查看其协商方式等;
2、倘若上行链路通畅,则可以怀疑设备是否有问题,可以在设备上连接一台计算机来模拟服务器,然后下载或浏览该服务器上的数据,看是否正常,倘若正常,则可以怀疑是否是上行接口板有问题,如果备件足够,可以更换上行单板;
3、如果上述检查都正常,则可怀疑是否是上层设备问题,这时候需要仔细检查上层设备,包括链路状况,路由状况等。
针对一批设备不能上网的问题,一般是汇聚这些设备的上层设备问题,可以查看上层设备的告警信息等来定位。
MTU配置问题引起故障
故障现象为:
某些网页不能打开,Ping大于1500bytesIP包Ping不通。
MTU的设置问题通常会出现在PPPOE的虚接口,IPOA,POSPPP等接口上,由于对接接口MTU值不一致,打开网页时显示很慢且有些图片不能打开,这是因为,通常HTTP协议传送图片时数据报文不允许分片,造成丢包所以表现为网页打开很慢。
通常通过检查两端设备设置,此类问题可以规避。
2.5网络攻击问题
旨在给出针对网络出现的异常情况进行分析判断和处理的过程。
2.5.1网络攻击案例一:
手段:
专业测试仪或sniffer软件的使用;端口镜像捕获报文
?
?
点评:
该案例的处理过程中,我们利用了LANSWITCH的端口镜像功能成功地在不中断业务的情况下准确地捕获了网络攻击报文。
以下就常见LANSWITCH端口镜像应用给以指导。
2.5.2检测网络攻击手段之一:
LANSWITCH端口镜像的应用
利用镜像端口可以将被镜像端口上全部的数据流镜像到监控端口上,这样在对于一个端口的业务无法中断时想查看此端口上的报文是十分有用的。
举个简单的例子来说,A端口如果正在使用,而且无法把A端口的业务中断,我们又想查看A端口上的报文,我们可以使用镜像端口,把A镜像到B(A称为被镜像端口,B称为镜像端口或监控端口),这样所有发给A的报文都会复制一分到B端口。
在做端口镜像时,我们要注意,源端口的速率一定不能高于目的端口的速率。
而且目的端口不能参加端口聚合。
通过端口镜像的设置,我们在目的端口上连上一台设备,就可以监控经过源端口的所有数据报文。
第3章用户端口掉线
上网掉线与端口掉线区别,某些用户申告用户上网掉线,首先确认对“用户掉线”是所谓某些游戏网站掉线还是用户LAN端口掉线。
这里讨论的是用户端口掉线。
3.1LAN用户掉线
固定IP地址用户
当用户为固定IP地址,当上网出现故障的时候,用户可以通过PING网关来基本判定问题故障的原因。
(1)如果能PING通网关,但是上不了网,则基本可以判定是上层设备、接入服务器或者出口路由器有问题。
(2)如果不能PING通网关,则有可能是接入设备或者计算机设置、LAN线路方面的问题,可以参照本手册进行故障查找。
PPPoE方式接入
(1)首先请观察是否能到达PPPoE的认证阶段,如果能到达认证阶段但是认证失败,或者认证成功但不能正常上网浏览,则问题可能出现在接入服务器上(后续,可由数管局处理查看其他端口是否也有类似问题)。
(2)PPPoE认证成功,不能上网,更换不同网站,如果都不能上,则为接入服务器问题或者为网站问题。
(3)如果不能正常开始PPPoE拨号,一般为用户拨号软件问题,请重新安装软件,并正确设置计算机后再试。
用户计算机有以下几个典型的使用问题:
TCP/IP属性设置错误,IP地址应为<自动获取IP地址>;拨号帐号格式以及密码是否正确;拨号软件安装有问题。
如果找不到接入服务器,则可能是接入设备或者计算机设置、LAN线路方面的问题。
3.上网不稳定经常断线
能上网,但是上网速率不稳定,经常断线。
这种问题一般是线路质量不好或线路过长、线路噪声过大、线路接触不好等导致高频衰减过大的原因造成,可根据以下几个方面,进行问题判定。
先判断线路是否超过100M,如果超过,则可能线路过长;或对比周围用户是否也存在此现象。
断线时,是否同时在使用其他电气设备,判断是否有干扰设备。
检查入户线线路的接头等是否接触可靠,检查入户线质量。
检查接入设备上设置的连接约束条件。
检查接入设备上该端口的连接参数。
利用维护人员到用户家,分析测试数据。
3.2用户打游戏“掉线”和“卡壳”问
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 宽带 网络故障 定位 指导书