手机用户的异网高端识别模型.docx
- 文档编号:15816434
- 上传时间:2023-07-08
- 格式:DOCX
- 页数:17
- 大小:88.50KB
手机用户的异网高端识别模型.docx
《手机用户的异网高端识别模型.docx》由会员分享,可在线阅读,更多相关《手机用户的异网高端识别模型.docx(17页珍藏版)》请在冰点文库上搜索。
手机用户的异网高端识别模型
手机用户的异网高端识别模型
摘要
我们首先利用SPSS软件对用户资料表中的数据进行了分析,发现了数据中的一些联系,但由于数据量太大,最终我们决定用随机抽样分析的方法来挑选数据。
最后用Q型聚类分析和单因子分析的方法来解决问题。
对于问题一:
首先,我们运用SPSS对附表一中所有数据进行了综合处理,得出其各项指标的平均水平,如月消费情况等等。
之后,考虑到数据量过大,我们选择通过多次不放回抽样的方法来进行数据的其他收集工作。
我们选用套餐资费,月均消费额,通话费三项作为主要指标,然后采用Q型聚类分析利用SPSS直接聚成了三类,选出了属于高端用户的那一类进行分析,列出了具体判别准则,但由于过于模糊,我们又将主要的指标客观赋权,将定性指标定量化。
最终给出了本网高端用户的判别准则,然后我们根据上网查找资料和自己的理解给出了本网的营销优先级,即1、提高通话质量的前提下适当降低资费,2、对老客户给予更多的优惠活动,3、采用更优惠的分层套餐结构,让客户真正体验到实惠等等。
对于问题二:
首先我们通过对本网用户的月消费信息进行了分析,在假设本网与异网月消费额相当的情况下得到了异网用户的月均消费金额。
然后我们通过对模型一得出的本网高端用户的数据进行综合分析,利用单因子分析的方法,统计出异网联通用户与本网用户通话频率,在综合本网高端用户判别准则近似得出了异网高端手机用户的判别准则。
关键字:
SPSS 抽样分析 Q型聚类分析 单因子分析
一、问题重述
科技的进步带来了通信技术的快速发展,并且随着移动通信、互联网业务的迅速发展,手机已经从生活奢侈品变成了生活日用品,是人们日常生活中不可缺少的一部分。
人们随时随地使用手机打电话、发短信、上网,而用户的这些行为以及其个人基本信息均在运营商中有所记录。
因此,分析手机用户的消费倾向及其价值观、社会认可度的倾向对于研究人们的手机消费心理有很大的作用。
与本网高端手机用户相同,异网高端手机用户在消费力度,通话量、以及手机交往圈(与之有通信行为的所有手机用户构成其手机交往圈)大小等方面均远高于整体平均水平。
高端用户往往更关注信号强度和通话质量,追求个性化服务。
他们往往是企业的骨干、是家庭的核心,对电信业务发展有着重要意义,其手机交往圈中多数也是高端手机用户,相互之间产生重要影响。
请根据附件数据完成以下任务:
1、研究本网手机用户行为特征,给出本网高端手机用户的判别准则以及营销优先级。
2、估算异网手机用户的月均消费金额,研究异网手机用户行为特征,并给出异网高端手机用户判别准则以及营销优先级。
3、评估本网、异网高端手机用户的判别准则是否合理以及异网手机用户月均消费金额的估算是否准确,有哪些需要改进的地方,改进方法是什么,还需要什么信息?
4、自行收集手机号码,研究手机号码的靓号分级工作,给出分级标准并评估其合理性。
二、问题分析
由题意知,其目的是建立一种模型用于筛选异网高端用户。
但考虑到本题数据量比较大,我们采用了多次随机不放回抽样取平均值的的方法。
我们首先分别对本网的个人信息表中随机筛选出的三组数据中的套餐档次、月消费金额、流量费、市话费、长途费、漫游费、通话费、增值费、短信费、上网流量以及上网时长做了基本的统计(包括求极大值、极小值、均值、标准差和方差),然后把得出的数据的分析结果互相做了对比,发现数据基本吻合,所以我们的抽样还算成功。
对于本网手机高端用户,我们首先对本网个人信息表中的所有数据运用SPSS进行统计分析,得出本网用户的月平均消费情况。
之后,我们在通过分析以上相关因素的前提下,通过聚类将本网中的手机高端用户筛选出来,然后多次随机抽选出50名手机高端用户,仔细认真的分析了他们的个人信息,发现了本网手机高端用户的一些明显的共有特性,如套餐费,月消费,以及通话费均高于一般用户的平均水平,我们便按照这些特性的标准制定出了本网手机高端用户的判别准则。
之后,我们又对我们所做的判别准则做了改进,将判别准则的定性指标做了定量化的处理,利用客观赋权中的均方差法对选出出来的三个指标(套餐档次、消费金额、通话费)进行了赋权,然后可根据赋权的结果对一个手机号码进行一个评分,根据所得分来判别该号码属于高端用户的隶属度。
再详细分析本网用户的个人信息表,通过上网查资料,给出了本网高端用户的营销优先级。
最后通过本网手机高端用户在本网所有用户中所占的比例和单因子分析的方法,再有假设利用异网手机在二月份的通话频率,最终确定出异网手机高端用户。
最后,通过随机筛选出的本网10名手机高端用户,用SPSS从通话记录表中筛选出他们在二月份的全部通话记录并进行分析,最终确定异网高端手机用户的判别准则。
三、模型的假设
1、假设所给的数据都是准确的。
2、假设异网用户的套餐资费标准与本网的相当。
3、假设异网的手机高端用户和本网的手机高端用户在总的用户中的比例是相当的。
4、假设手机用户可分为高端、中端、低端三种。
5、假设每个号码每月打电话次数和接电话次数大致相当。
四、符号说明
V2本网手机用户的城乡标识
V4本网手机用户的性别
V5本网手机用户的年龄
V6本网手机用户的等级
V10本网手机用户的号码办理日期
V11是否3G用户
V12是否VIP用户
V13本网用户的套餐类型(元)
V14本网用户消费金额(元)
V15本网用户当月上网流量费(元)
V16本网用户当月市话语音费用(元)
V17本网手机用户号码长途语音费用(元)
V18本网手机用户漫游语音费用(元)
V19本网手机用户号码语音费用(元)
V20本网手机用户增值费用(元)
V21本网手机用户短信费用(元)
V24本网手机用户当月上网流量(M)
V25本网手机用户当月上网时长(分钟)
五、模型的建立及求解
首先,我们用SPSS对本网的个人用户信息表中的相关数据进行了分析,其中分析了相关数据的极大值、极小值、均值、方差、标准差,得到结果如下图:
描述统计量
N
极小值
极大值
均值
标准差
方差
V13
376175
0
899
115.59
48.563
2358.377
V14
382779
-360.00
7660.67
39.6269
49.21684
2422.298
V15
382779
-200.00
1000.00
5.2691
19.93548
397.424
V16
382779
-134.30
907.97
15.0395
19.91288
396.523
V17
382779
.00
878.41
8.5099
17.95058
322.223
V18
382779
.00
681.94
2.8733
11.31604
128.053
V19
382779
-86.72
1308.41
26.4226
34.34042
1179.264
V20
382779
.00
7418.00
.2833
13.41839
180.053
V21
382779
-.10
442.13
3.3502
8.37661
70.168
V24
382779
.00
159911.83
79.5486
1141.80056
1303708.530
V25
382779
.00
816.37
32.4218
79.99881
6399.809
有效的N(列表状态)
376175
我们通过分析这张表中的数据,很容易就发现,相关数据的差值波动都比较大,通过分析他们的均值、最大值、最小值、方差,发现他们可以作为我们分析本网高端用户的一些依据。
对这些数据的分析,我们采用Q型聚类分析的方法。
聚类分析的基本思想:
我们所研究的样品(网点)或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。
于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。
把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想
Q型聚类分析的优点是:
1、可以综合利用多个变量的信息对样本进行分类;2、分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;3、聚类
分析所得到的结果比传统分类方法更细致、全面、合理。
数据标准化:
在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。
但是,即使这样,得到的数据也不一定在区间
上。
因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间
上。
我们采用以下变换方式:
平移·极差变换
,
显然有
,而且也消除了量纲的影响。
其中:
其中
表示第
个分类对象的第
个指标的原始数据。
识别本网高端用户模型
首先我们从个人信息资料表中通过随机不放回抽样的办法抽出1%的数据,数据分析结果如下表:
描述统计量
N
极小值
极大值
均值
标准差
方差
V13
3663
0
399
115.38
48.520
2354.220
V14
3719
-29.80
836.70
39.2967
45.0
9164
2033.256
V15
3719
-66.00
836.70
5.5693
22.91507
525.100
V16
3719
-47.07
202.26
15.1832
19.77025
390.863
V17
3719
.00
193.33
8.0275
15.74393
247.871
V18
3719
.00
208.32
2.8037
10.12559
102.528
V19
3719
-41.20
309.85
26.0143
31.88932
1016.929
V20
3719
.00
84.67
.2229
2.62947
6.914
V21
3719
.00
127.30
3.3607
8.22475
67.647
V24
3719
.00
61945.93
95.8529
1265.03270
1600307.732
V25
3719
.00
717.02
33.5096
79.74177
6358.750
有效的N(列表状态)
3663
我们将这张表中的相关数据同上张表做了比较,发现数据吻合程度较高,说明我们的抽样还是成功的,我们以供选择三次抽样求平均值的办法,由于篇幅限制,后两张表见附件。
对选出来的数据我们进行了Q型聚类分析,将他们分成了三类,结果如下图:
我们依照上面办法做了三次抽样,平均其结果,以达到较高的准确率。
然后,我们从筛选出的本网高端用户中有随机筛选出50名高端手机用户,对他们
的个人信息又做了更加细致的研究,如此反复三次,求平均值。
其中一组信息如下:
统计量
V2
V4
V5
V6
V10
V11
V12
N
有效
50
50
47
50
50
50
50
缺失
0
0
3
0
0
0
0
V2
频率
百分比
有效百分比
累积百分比
有效
-1
15
30.0
30.0
30.0
0
29
58.0
58.0
88.0
1
2
4.0
4.0
92.0
2
4
8.0
8.0
100.0
合计
50
100.0
100.0
V4
频率
百分比
有效百分比
累积百分比
有效
3
6.0
6.0
6.0
F
17
34.0
34.0
40.0
M
30
60.0
60.0
100.0
合计
50
100.0
100.0
V5
频率
百分比
有效百分比
累积百分比
有效
19
1
2.0
2.1
2.1
22
1
2.0
2.1
4.3
23
2
4.0
4.3
8.5
24
2
4.0
4.3
12.8
25
2
4.0
4.3
17.0
26
3
6.0
6.4
23.4
27
6
12.0
12.8
36.2
29
1
2.0
2.1
38.3
30
2
4.0
4.3
42.6
31
2
4.0
4.3
46.8
32
2
4.0
4.3
51.1
33
3
6.0
6.4
57.4
34
1
2.0
2.1
59.6
35
1
2.0
2.1
61.7
36
2
4.0
4.3
66.0
38
1
2.0
2.1
68.1
39
2
4.0
4.3
72.3
40
1
2.0
2.1
74.5
41
1
2.0
2.1
76.6
43
2
4.0
4.3
80.9
45
1
2.0
2.1
83.0
47
1
2.0
2.1
85.1
48
1
2.0
2.1
87.2
50
1
2.0
2.1
89.4
52
1
2.0
2.1
91.5
55
2
4.0
4.3
95.7
58
1
2.0
2.1
97.9
67
1
2.0
2.1
100.0
合计
47
94.0
100.0
缺失
系统
3
6.0
合计
50
100.0
V6
频率
百分比
有效百分比
累积百分比
有效
-1
14
28.0
28.0
28.0
2
2
4.0
4.0
32.0
3
26
52.0
52.0
84.0
4
8
16.0
16.0
100.0
合计
50
100.0
100.0
V11
频率
百分比
有效百分比
累积百分比
有效
0
38
76.0
76.0
76.0
1
12
24.0
24.0
100.0
合计
50
100.0
100.0
V12
频率
百分比
有效百分比
累积百分比
有效
-1
14
28.0
28.0
28.0
2
2
4.0
4.0
32.0
3
26
52.0
52.0
84.0
4
8
16.0
16.0
100.0
合计
50
100.0
100.0
最后,我们对初级筛选出的本网高端用户进行了具体分析,发现他们的年龄大部分都在25岁以上,其中35岁以上的占大多数;手机号码办理平均年限在2年以上;70%的高端用户户口在市区;3G用户和VIP用户比例也远远高于非高端用户。
其它相关变量未发现有直接关系。
经过以上分析总结,我们给出的本网手机高端用户最初的基本判别准则为:
1、消费级别在月平均120元以上。
其中,通话费在月平均79元以上。
套餐级别在月平均137元以上
2、户口在市区。
3、手机号码使用年限平均在2年以上。
4、平均年龄在35岁以上。
5、3G用户和VIP用户可以优先考虑。
(说明:
以第一第二条为主要指标)
之后我们又对其中的对高端用户影响较大的变量进行了分析,最后发现其中的套餐档次、消费金额、通话费对本网手机高端用户判别的影响较大,故对这三个指标采用了客观赋权的办法,最终完成了将定性指标定量化。
客观赋权:
均方差法
记第j项指标的样本均值与样本均方差为
则取第j项指标的权重系数为
由上式我们求得套餐档次的权重系数X1=38.66%;消费金额的权重系数X2=35.93%;通话费的权重系数X3=25.41%。
号码得分公式X=X1*V13+X2*V14+X3*V15
最后,我们利用matlab算出了我们随机挑选的50名本网手机高端用户的各自得分,所得信息如下表:
最大值
最小值
平均值
174.82
61.334
108.25554
所以我们可以认为,如果一个号码得分超过最小值,我们便可以认为这个手机号码的主人就是手机高端用户;如果一个号码得分小于这个值,我们可以利用公式Y=X/61.334*100%来求出这个手机号码属于高端用户的隶属度。
关于营销优先级,我们在网上得到的定义是:
由于不同级别的客户对不同的套餐感兴趣,所以网络运营商根据不同级别客户的喜好,而推出具有针对性的优惠套餐。
而对于本网的高端客户来讲,我们认为应当给出的营销优先级为:
1在提高通话质量的前提下适当降低资费
2对使用一定年限的手机号码给予一定的优惠
3优化分层套餐结构,让不同消费阶层的人感到实惠。
异网高端识别
关于异网高端用户平均月消费金额,我们假设异网的资费标准同本网的资费标准大致相当,所以得出,异网月平均消费金额大约为40元。
对于异网高端识别这个模型,因为异网还有联通,移动等其他多个运营商,我们以联通用户为例。
我们用SPSS软件对用户的通话清单表做了处理,把标识为联通的手机号码提取了出来,然后用SPSS软件统计出了他们在二月份被叫的频率。
但由于数据量巨大,我们只选取其中的部分数据进行统计分析。
我们在对随机抽取其中的1%、2%、3%、4%的数据进行分析以后发现通话频率随着抽取数据的增多不断加大,所以,我们可以认为如果把全部数据都进行分析的话,将会有部分用户的通话频率非常高,而我们就认为这部分用户为异网高端用户。
结果如下表
统计量
V3
N
有效
189326
缺失
0
由于另一部分数据量较大,故不再附
最后我们由模型1可以得到本网高端用户在本网所有用户中所占的比例大约为10.2%,然后按照这个比例我们就可以利用单因子分析法,通过联通用户的被叫的频率来确定联通用户中的手机高端用户。
关于判别准则的给出,我们从本网高端用户中随机筛选出10名高端用户,把他们二月份的通话记录从通话记录表中调了出来,分析了他们的通话频率,分析结果如下表:
通话频率分析表
最大值
最小值
平均值
458
127
289
由于假设打电话和接电话的次数大致相当,所以,我们可以认为每月的通话频率大于127次的号码都为高端用户,小于127次的可利用公式H(高端用户隶属度)=Z(通话频率)/127求出。
而对于手机号码的靓号分级工作,我们的思路是从全部的手机号码的高端用户中确定,但具体的手机号码收集工作,由于我们能力和相关知识有限,故暂时不再考虑。
六、模型评价与改进方向
对模型的评价,对于本网识别高端用户的模型,由于我们采用抽样分析的办法,所以还存在随机性的误差,误差大小不好把握。
但可以通过多次试验求平均值的办法来尽量减小误差。
而对于判别准则的给出,由于我们缺乏这方面的相关知识而采用上网查资料和我们对数据的分析相结合的办法,通过我们的理解给出,缺乏官方的权威,具有一定的局限性。
改进措施可以将更多定性指标定量化,例如,城乡户口,年龄等等,再次可以通过加强与相关工作人员的联系,从他们哪儿得到相关信息和定义,由此,可以给出较为准确的判别准则。
对于异网的月均消费金额,由于我们缺少相关资费标准和信息,所以假设异网同本网的资费标准相当,得到的值可能会有较大误差。
异网的高端用户的判别准则由于采用通话频率这个单因子分析的办法,也会因为不确定因素的存在,而出现较大的误差。
但这些误差可以通过分析其他的数据来减少,例如,通话时长和用户的交际面等。
通过以上分析,我们认为,缺少的数据还有异网相关用户的个人信息,还有就是方法上面,假如能用某种方法将附表一与附表二中的数据进行有效合并,结果会更加理想化。
七、参考文献
1、《数据分析》范金城、梅长林编著,2002年7月
2、《概率统计与SPSS应用》于义良罗蕴玲安建业编著,2009年8月
3、《SPSS统计分析与应用》吕振通张凌云编著,2009年6月
4、《SPSS17中文版统计分析典型实例精粹》赖国毅陈超编著,2010年3月
5、《以Excel和SPSS为工具的管理统计》张建同孙昌言编著,2005年9月
八、附件
附件如下:
数据2
描述统计量
N
极小值
极大值
均值
标准差
V13
3765
0
500
115.77
49.363
V14
3831
-26.20
1065.30
39.4709
49.10740
V15
3831
-3.09
698.07
5.8195
22.75275
V16
3831
-37.44
907.97
14.6153
23.38480
V17
3831
.00
300.87
8.2689
16.51139
V18
3831
.00
193.33
2.9819
11.22539
V19
3831
-37.44
1028.99
25.8661
35.91971
V20
3831
.00
94.67
.2592
2.67324
V21
3831
.00
100.93
3.2808
7.96187
V24
3831
.00
16121.44
78.6565
626.05246
V25
3831
.00
676.93
32.9458
80.35540
有效的N(列表状态)
3765
数据三
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 手机用户 高端 识别 模型