移动互联网性能提升端到端优化建议指导书V10.docx
- 文档编号:1323316
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:31
- 大小:860.19KB
移动互联网性能提升端到端优化建议指导书V10.docx
《移动互联网性能提升端到端优化建议指导书V10.docx》由会员分享,可在线阅读,更多相关《移动互联网性能提升端到端优化建议指导书V10.docx(31页珍藏版)》请在冰点文库上搜索。
移动互联网性能提升端到端优化建议指导书V10
移动互联网业务性能提升端到端优化建议指导书
(试用版)
中国电信集团公司网运部
二O一三年六月
编写说明:
随着智能终端的普及,移动互联网上的业务得到蓬勃发展,用户对移动互联网业务的要求也越来越高。
在当前异常激烈的移动互联网竞争环境下,移动运营商必须推动业务的精细化管理,迅速提升业务质量,最终提升用户对业务的感知、满足用户的各项需求。
用户真实的业务感知涉及到从终端到业务平台整个业务流程各环节,因此感知的提升也是端到端优化的过程。
本文结合分公司在业务优化过程中的经验,建立移动业务感知评估模型,从端到端的各个环节来探索网页浏览业务和QQ业务感知的提升优化方法,为分公司进行业务优化提供参考,同时希望各地能在具体的现网优化实践中建立端到端的优化概念,拓宽对移动互联网业务提升的分析视野,通过分析端到端影响业务质量的各种因素,建立从终端、无线网、核心网、业务平台等各个环节的协同优化的思路,全面提升端到端的网络承载性能、业务性能和用户感知,提高运营支撑能力。
本指导书主要完成单位:
中国电信集团公司网运部
中国电信股份有限公司广州研究院
中国电信江苏省分公司
中国电信河北省分公司
中国电信黑龙江省分公司
中国电信江西省分公司
中兴通信股份有限公司
编制历史:
版本
更新日期
修改
更新说明
主要撰写人
V1.0
2013-4-19
完成V1.0版
罗萍、钱少波、王兵
本文档介绍了基于1xEVDO网络移动互联网业务的分析和优化机制思路,适用于网络维护和优化人员对移动互联网业务进行分析,发现和预测数据网络业务运行和维护中的问题和隐患,针对相关问题进行网络调整、优化和管控,提高移动互联网业务业务的质量和用户满意度。
手册说明
1、本手册主要研究EVDO网络。
2、移动互联网业务的分析优化具体体现为对业务整体端到端流程的分析和优化,不仅需要考虑网络,同时需要关注用户和终端、业务和应用。
3、分析周期为月粒度。
4、由于各省的具体情况各不相同,因此该分析机制提供一种分析和优化的思路,各省公司可根据自身具体情况参照执行。
2端到端的分析优化思路
移动互联网业务端到端的分析和优化指的是数据业务从终端出发,达到业务平台并返回结果到终端的整个环路,不仅考虑网络,同时关注用户和终端、业务和应用,因为端到端环路上的任何一点的问题,都将导致用户体验的下降。
移动互联网业务端到端分析和优化的各环节如图2-1所示,端到端的分析优化思路如图2-2所示。
图2-1:
移动互联网业务端到端分析和优化的各环节
图2-2端到端的分析优化思路
针对数据业务的端到端分析优化可分为三大步骤:
⏹选取优化业务:
首先按照一定的标准选取需要优化的业务,初期可选取渗透率高的业务、网络使用效率低的业务、流量占比高的业务作为对象进行分析。
⏹确定评估业务质量的指标:
研究业务流程,选取关键业务质量评估指标。
⏹评估业务质量,制定优化策略:
确定业务分析数据样本取样的时间和空间,采用数据采集工具获取样本;通过样本评估业务质量,查找终端、无线网、核心网、业务网、SP等端到端环节影响数据业务质量的短板问题,进行针对性的整改、提升。
3分析工具介绍
为了评估业务质量和分析业务特征,需要用到以下分析工具:
1)RP接口数据采集和分析工具
这类工具主要通过采集的RP口流量数据对A11和A10进行关联分析,得到每用户的具体行为、全网各种应用的渗透率、各种业务对网络资源(流量、空口时间和空口连接次数)的使用程度和使用效率,充分体现用户在使用业务时具体的体验,如无线网络时延、有线网络时延、DNS时延、包的丢包率等。
目前,主流设备厂家如阿朗、中兴和华为等都能提供这类工具。
2)IP包分析工具
此类工具可以解析每个IP包,并对抓取的数据包进行解析、过滤和关联分析。
以主流工具WiresharkNetworkProtocolAnalyzer为例,图3-1为Wireshark解开的IP包和针对某个IP包的详细解析。
图3-1WiresharkNetworkProtocolAnalyzer针对某个IP包的详细解析
4选取优化业务
对移动互联网业务的分析和优化,目的是提升业务质量和用户感知,提高用户对网络质量的评价。
因此一般考虑选取渗透率高的业务、流量占比高的业务网络、网络使用效益低的业务作为对象进行分析,这些指标可以利用RP接口数据业务采集和分析工具获得。
一般市场部门也有相应的指标,需要注意的是,从RP口获取的指标与市场部门的指标在定义上有所区别,因此指标值也会有所不同。
4.1市场渗透率分析
&分析目的:
市场渗透率在宏观上反映业务在市场中受关注的程度及用户的使用情况,对于市场渗透率高的业务应予以重点关注、保障。
&数据来源:
RP接口数据
&指标说明
✍市场渗透率=统计周期内单个业务用户数/全部数据业务总用户数*100%;
4.2流量占比分析
&分析目的:
以流量计费为基础的移动数据网络,关注流量占比高的业务并提高这类业务的业务感知,对提高数据业务的盈利能力有重要意义。
&数据来源:
RP接口数据
&指标说明
✍计算每个业务在单位时间内的累计流量和单位时间内所有数据业务的总流量
✍业务流量占比=单位时间内的某业务的累计流量/单位时间内所有数据业务的总流量
✍针对业务流量占比做排名来获得高流量占比业务。
4.3网络使用效益分析
&分析目的:
以流量计费为基础的移动数据网络,关注流量低网络资源消耗高的业务并减少这类业务对网络资源的消耗,对提高网络使用效益有重要意义。
&数据来源:
RP接口数据
&分析方法:
✍统计分析若干周期内每种业务的流量、占用的空口时间和引发的空口连接次数。
✍针对业务每兆字节消耗的空口时间以及每兆字节引起的连接次数做排名来获得使用效益低下的业务。
&指标说明
✍每兆字节消耗的空口时间=空口时间(小时)/流量(M);
✍每兆字节引起的空口连接次数=空口连接次数(次)/流量(M)。
5确定评估业务质量的指标
通常影响用户体验的指标主要有业务达到的速率和吞吐率、业务的时延、业务的成功率等,不同业务对用户感知的影响不同,如HTTP用户对时延相对敏感,而视频业务对抖动、时延等都很敏感。
在提升业务质量前首先需要确定不同业务影响用户感知的关键指标(例如成功率、时延、速率、吞吐率、丢包率等),并在掌握业务流程基础上分析指标所反映的问题。
。
5.1业务流程分析
&分析目的:
采用RP口针对单用户抓取IP流,分析业务流程和工作原理,作为后续分析追踪问题的基础。
&数据来源:
RP接口数据
&分析方法
✍采用RP口针对单用户抓取IP流;
✍对IP包进行详细分析,了解业务流程和工作原理;
&呈现方式:
以网页HTTP类业务为例
✍从流程上分析得到网页浏览是基于HTTP的。
影响用户从终端上对浏览业务体验的原因主要有两种:
等待时间很长才出结果或告知服务不可达。
5.2确定评估业务质量的指标
在制定影响业务质量指标时,需要考虑业务对包时延的容忍度、业务对于丢包的容忍度、业务对于速率的需求、业务本身成功率对业务体验的影响。
不同业务可选择用户感知比较敏感的方面,最终确定影响业务感知的指标。
如:
业务类别
评价指标
网页浏览类
成功率、时延、速率
即时通信类
成功率、时延
微博
成功率、时延
游戏类
时延、丢包率
5.2.1业务成功率
&分析目的:
通过针对特定业务的成功率和失败率的计算,并按照失败类型做终端、网元和SP做统计,最终可帮助定位引起业务失败的原因。
&数据来源:
RP接口数据
&分析方法:
✍从RP接口数据业务采集和分析工具提取数据;
✍针对不同业务可以定义不同的成功判定方法,进行计算
✍可按照业务的特性,把业务进行更细的分类,分别计算成功率
&指标说明
✍成功率=业务成功次数/所有业务次数
5.2.2业务时延
&分析目的:
通过针对特定业务的时延的计算,并且分解时延到无线时延(无线侧)、有线时延(核心+业务网侧)。
最终利用算法定位到网元,实现时延问题定位。
&数据来源:
RP接口数据
&分析方法:
✍由于RP接口数据采集和分析工具工作在RP口,无法获得用户发起请求到RP口截获请求的时间。
✍可以针对不同业务的流程,以及用户从发起请求到在终端上呈现可阅读的内容为标准,定义业务时延的计算方法。
✍在计算的时候,无线网络延迟和有线网络延迟分开计算。
&指标说明:
以网页HTTP类业务为例说明
✍有线时延=t2-t1,即:
RP口获得业务第一个数据包的时间-RP口获得业务请求的时间
✍无线时延=t3–t2,即:
RP口获得业务第一个数据包Ack消息的时间-RP口获得业务第一个包的时间。
通过计算第一个包的无线时延t3-t2,最大限度排除手机性能对无线延迟的影响。
t3
t2
t1
5.2.3业务达到的速率
&分析目的:
计算业务在当前网络下达到的平均速率和最好体验速率。
如果这些速率足以支撑用户良好的体验,则表明此业务适合在本网络环境下;否则,需要考虑业务分流或其它优化策略。
&数据来源:
RP接口数据
&分析方法:
✍从RP接口数据业务采集和分析工具提取数据,计算速率
&指标说明
✍速率=流量/时间。
这里的时间需要去除没有流量的时间。
如下图,速率=从t1到t9的流量/((t6–t1)+(t9–t8)
✍要计算用户感受到最好的下载体验的速率,需考察业务数据包达到恒定速率后的速率。
(以TCP为例子,计算最好速率时要去除TCP在窗口协商开始,到窗口恒定之间的过程)
5.2.4业务丢包率
&分析目的:
通过针对特定业务的业务丢包率的计算,并按照网跳做统计,最终可帮助定位引起业务丢包率高的原因。
&数据来源:
RP接口数据
&分析方法:
✍从RP接口数据业务采集和分析工具提取数据;
✍基于TCP协议,计算丢包率=重传的报文数目/全部报文数*100%
6评估业务质量,制定优化策略
通过研究选定业务的使用特征,如:
业务的使用忙时和业务区域分布。
通过对这些特征的分析,确定选定业务的取样时间和空间,采用数据采集工具获取样本支持后续的分析。
通过数据样本评估业务质量,查找终端、无线网、核心网、业务网、SP等端到端环节影响数据业务质量的短板问题,进行针对性的整改、提升。
6.1确定取样的时间和空间
6.1.1业务流量、用户数发展趋势
&分析目的:
通过对该业务流量、用户数在一段时间内的变化,得出业务发展趋势。
&数据来源:
RP接口数据分析;
&分析方法:
✍按选定粒度统计分析流量、用户数的变化趋势;最新的流量、用户数统计数据
6.1.2业务忙时分析
&分析目的:
通过对特定业务访问次数的统计,可以获得该业务访问主要集中在什么时段。
针对业务的分析可以针对访问忙时。
&数据来源:
RP接口数据
&分析方法:
✍针对若干周期分析统计业务访问的次数,并做时序分布。
✍针对业务访问次数,通常按照流来计算(不同的五元组为不同的流)。
针对HTTP类业务比较特殊,一个HTTP通常就是一个流。
但是一个HTTP请求,会引发多个后续HTTP请求,但是从用户角度来看,用户只点击了一次。
针对这类业务,建议使用间隔超过一定时长(例如10分钟)的业务请求记为一次新的访问。
6.1.3业务量分区域统计
&分析目的:
统计特定业务在不同区域(如:
商业区、居民区、学校等)的使用人数,以获得业务的使用热点地区。
&数据来源:
RP接口数据
&分析方法
✍计算若干周期内各个区域下所有小区针对选定业务的人数(去重复),并做占比分析。
同时针对每个区域统计每小区的使用人数。
6.2评估业务质量
选取关键指标,将当地自定义的指标值正常范围作为提升目标,通过数据采用工具采集分析样本数据,评估业务质量和客户感知。
例如:
影响网页HTTP类业务的用户业务感知的主要环节为网页刷新、网页刷新时延等,包括下面5个指标:
客户感知
指标
指标定义
接口
指标正常值范围
页面能否刷新
页面完整打开率
页面首次点击成功率
GET响应率
所有页面刷新的成功率
页面首次点击刷新的成功率
所有GET请求的响应率
RP
自定义
页面刷新时延
网页首次点击时延
网页首次点击时延(有线部分)
网页首次点击时延(无线部分)
RP
自定义
6.3查问题,制定优化策略
6.3.1业务成功率分析
&分析方法:
以网页HTTP类业务为例
✍计算HTTP响应代码各类失败码(即4XX和5XX的返回码)的分布,针对失败率高的小区、SP等维度进行筛选。
小区名
使用网页HTTP类业务人数
错误码
错误码发生次数
错误引起的人数
单小区的失败率
4XX
…
5XX
…
说明:
1、4XX的返回码,主要是用户原因引起的。
通过做终端和返回码的对应关系,分析4XX的错误发生和终端是否具有关联性。
2、5XX的返回码,主要是SP原因引起。
针对5XX发生的SP进行统计分析,定位具体哪个SP的5XX的失败率较高。
针对这类问题,可以通知SP协查解决。
✍进行基于APN的网页浏览中的GET/POST响应率指标的分析。
&案例:
以网页HTTP类业务为例
✍某BSC一个小时的统计数据分析得到网页响应成功率指标如下,可知,当APN设置为ctwap时,GET响应率仅为75%,偏低。
APN
GET请求数据占比
GET响应率
GET时延(ms)
ctnet@
63.79%
95.23%
428.0837
ctwap@
31.60%
75.03%
820.7459
✍找出APN为ctwap的各个Host中,响应率最低的前10名,从中可以看到“”的GET响应率仅为3%,而且GET请求高达27393次。
这严重影响ctwap的整体指标。
Host
GET请求次数
GET响应次数
GET响应成功率
21160
853
3.11%
179
13
7.26%
211.137.127.208:
8080
21
2
9.52%
10.234.113.8
749
91
12.15%
r10.mo.baidunection:
Keep-Alive
7
1
14.29%
7
1
14.29%
10
2
20.00%
11
3
27.27%
17
5
29.41%
3
1
33.33%
✍剔除HOST为“”的网站后,统计指标正常。
经过ctwap的请求响应时延约800ms,这个和网关KPI统计报表结果一致。
APN
GET响应率
GET时延(ms)
ctnet@
95.50%
412.3807
ctwap@
93.18%
795.3654
✍WAP网关排查:
通过在WAP网关抓包分析,发现SP存在tcp握手后,主动断链的现象,原因是SP对WAP网关地址做了限制,造成当APN设置为ctwap时,GET响应率偏低的问题。
说明:
Host为不同APNGET指标统计中,CTWAP的访问不是所有都失败。
解释如下:
这个跟统计手段有关,统计工具使用GreKEY标识一次连接,但存在CTNET用户被分配了重复的GreKEY的可能性(之前由CTWAP用户使用,由于PPP断链不再使用)。
6.3.2业务时延分析
通过针对特定业务的时延的计算,并且分解时延到无线侧、核心+业务网侧。
通过抓取定位现网问题区域,逐层详细分析导致高时延的网络环节及具体因素,并通过针对性优化解决问题。
&分析方法:
以网页HTTP类业务为例
✍总时延分区间统计分析:
HTTP响应代码
大于2s
(次数)
1s-2s
(次数)
小于1s
(次数)
高时延(大于2s)的占比
1XX
2XX
3XX
4XX
5XX
✍统计网页面刷新平均时延,计算其中无线段平均时延、核心段平均时延,并计算无线时延在总时延的占比。
✍网络层初步定位:
进一步分解各网元时延详细值,发现无线侧原因引发的高时延小区、业务侧原因引发的高时延小区。
6.3.2.1业务时延分析–无线侧问题
&分析方法:
以网页HTTP类业务为例
✍选取时延最大且远高于时延平均值的Top10小区作为分析对象
✍针对无线侧引起的时延过长,开展针对性优化
&案例:
某校园室分载扇测试现场SINR值良好,但该室分下的用户在早忙时HTTP业务的无线部分时延平均612ms,而在空口质量良好的情况下,HTTP类业务的空口时延不超过200ms。
以下是现场测试的感知时延和分析系统统计的空口时延指标。
现场测试感知
RP口分析系统空口时延指标
10:
16分新浪全部打开1分钟
728ms
10:
26分新浪全部打开70秒
696ms
10:
26分新浪全部打开70秒
739ms
10:
36分新浪全部打开2分钟
987ms
10:
42分新浪全部打开2分钟
887ms
10:
42分新浪全部打开2分钟
1092ms
由于该环境是室分环境,且经测试现场SINR值良好,不存在覆盖差和接入远点的问题,通过CDR话单的过滤,发现该室分系统在早上10点的SINR大于-5的比例达到了97.68%,且现场测试的话单的接入SINR值都很高,排除前向问题。
将该载扇下的早忙时接入话单RSSI进行统计,得出了以下分布情况:
在接入RSSI的统计中,有56.71%的话单在接入时的RSSI大于-90dBm,造成用户使用时感知不好。
该载扇在负荷较低的时候RSSI为-113.8dBm,说明该室分不存在由于质量差导致RSSI高的问题。
从RSSI统计指标上看,其在忙时迅速升高的原因还是由于用户数量较多。
从功控参数、ACKGain参数对RSSI进行控制。
整前后性能指标对比如下表所示:
性能指标
DO:
连接成功率(%)
DO:
无线掉线率(%)
DO:
RSSI均值(主集)
现场测试感知(时延)
首次点击时延(无线部分)
调整前
99.58
0.73
-873.5
超过1分钟
612ms
调整后
99.44
0.97
-987.2
23秒
112ms
可以看出,连接成功率和掉线率略有恶化,但是RSSI和用户感知提升了。
从本次参数修改试验中可以得到以下结论:
1、对于用户数较多的室分场景,反向RSSI会迅速升高;
2、由于反向链路的恶化,ACK消息不能成功地上传,因此前向的速率、流量和时延都会受到影响,从而影响用户业务感知;
3、通过优化反向功控参数,可有效降低底噪,提升用户感知。
6.3.2.2业务时延分析–核心侧问题
&分析方法:
以网页HTTP类业务为例
✍针对核心或SP的时延过大的小区,可针对这小区中访问时延过长的TOP用户分析
✍时延过大小区中,时延较大用户经常访问的SP的时延排名,判断是否由于某些地址资源响应时延异常导致整体访问时间过长
用户
响应IP
有线网络响应时延(ms)
网络侧响应代码
http_host
502
XXX
注:
网络侧响应代码=502,表示服务器过载不能及时响应,说明相关服务器服务能力不足。
影响了用户体验,需要协调解决。
✍即使是成功的使用记录,某些服务器也可能具有较高的时延。
如果存在某些服务器响应时延远高于同类性服务器平均响应时延,说明某些服务器存在性能瓶颈,影响了用户体验,需要协调解决。
✍进行基于APN的网页浏览中的GET/POST时延指标的分析。
6.3.3终端对业务特征的影响
分析终端和终端参数设置对业务的影响。
&分析方法:
✍以HTTP业务为例,通过RP口抓包数据,分析用户的HTTP协议相关业务使用情况,再通过UserAgent字段获取到相应用户所使用的终端类型。
将某款终端的所有用户的业务使用情况进行累加统计,得到某款终端的HTTP相关指标。
✍通过与呼叫详单数据的对接,使用IMSI作为关联条件,统计得到某款终端的无线侧相关指标。
✍统计RP口Chap-Challege消息中的APN字段统计终端的APN参数设置情况
&案例1:
终端对业务感知的影响:
以iPhone4s和XT800进行对比,分析两种终端在处理业务时采用不同机制导致用户感知差异的问题。
✍微博业务感知评估:
iPhone4S运行微博业务情况良好,用户在点击成功率、时延、速率、重传等各方面的感知都超越XT800。
✍感知差异原因分析:
1、测试发现,XT800在新浪微博发送的初始阶段数据包普遍较小,如图6-1所示,XT800发送新浪微博速率计算:
22050*8/(46.1818-44.8862)=136.153kbps
图6-1XT800微博初始包分析
2、iPhone4s在初始阶段会迅速地将发送的数据包增大至最大的1400,如图6-2所示,iPhone4s发送新浪微博速率计算:
24050*8/(35.1818-34.0606)=171.632kbps
图6-2iPhone4s微博初始包分析
3、由此可见,微博发送初始阶段数据包的大小对微博发送速率用一定的影响。
&案例2:
分析终端APN参数设置情况
✍国内运营商虽也有终端定制模式,但生产厂商的直接分销零售仍是主要模式,导致终端的规范性、通用性、可靠性存在诸多问题。
如,终端在APN、代理地址/端口、彩信URL的设置上往往各异,在普通用户并不清楚如何正确设置的情况下,会直接导致用户不能正常发起数据应用业务。
终端的正确设置如下表所示:
应用需WAP网关代理的业务的
终端设置
应用不需WAP网关代理的业务的终端设置
应用彩信业务的终端设置
终端设置项
正确的设置
终端设置项
正确的设置
终端设置项
正确的设置
接入点名称(APN)
ctwap@
接入点名称(APN)
ctnet@
接入点名称(APN)
ctwap@
代理地址
10.0.0.200
代理地址
无
代理地址
10.0.0.200
代理端口
80
代理端口
无
代理端口
80
彩信URI
http:
//mmsc.vnet.mobi
✍统计RP口Chap-Challege消息中的APN字段可知终端的APN设置。
某BSC晚忙时21
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 移动 互联网 性能 提升 端到端 优化 建议 指导书 V10