书签分享收藏举报版权申诉 / 17

立即下载加入VIP,免费下载

当前位置：首页 > 人文社科 > 法律资料 > 手机用户的异网高端识别模型.docx

手机用户的异网高端识别模型.docx

文档编号：15816434
上传时间：2023-07-08
格式：DOCX
页数：17
大小：88.50KB

手机用户的异网高端识别模型.docx

《手机用户的异网高端识别模型.docx》由会员分享，可在线阅读，更多相关《手机用户的异网高端识别模型.docx（17页珍藏版）》请在冰点文库上搜索。

手机用户的异网高端识别模型.docx

手机用户的异网高端识别模型

摘要

我们首先利用ＳＰＳＳ软件对用户资料表中的数据进行了分析，发现了数据中的一些联系，但由于数据量太大，最终我们决定用随机抽样分析的方法来挑选数据。

最后用Ｑ型聚类分析和单因子分析的方法来解决问题。

对于问题一：

首先，我们运用SPSS对附表一中所有数据进行了综合处理，得出其各项指标的平均水平，如月消费情况等等。

之后，考虑到数据量过大，我们选择通过多次不放回抽样的方法来进行数据的其他收集工作。

我们选用套餐资费，月均消费额，通话费三项作为主要指标，然后采用Ｑ型聚类分析利用SPSS直接聚成了三类，选出了属于高端用户的那一类进行分析，列出了具体判别准则，但由于过于模糊，我们又将主要的指标客观赋权，将定性指标定量化。

最终给出了本网高端用户的判别准则，然后我们根据上网查找资料和自己的理解给出了本网的营销优先级，即1、提高通话质量的前提下适当降低资费，2、对老客户给予更多的优惠活动，3、采用更优惠的分层套餐结构，让客户真正体验到实惠等等。

对于问题二：

首先我们通过对本网用户的月消费信息进行了分析，在假设本网与异网月消费额相当的情况下得到了异网用户的月均消费金额。

然后我们通过对模型一得出的本网高端用户的数据进行综合分析，利用单因子分析的方法，统计出异网联通用户与本网用户通话频率，在综合本网高端用户判别准则近似得出了异网高端手机用户的判别准则。

关键字：

ＳＰＳＳ　抽样分析　Q型聚类分析　单因子分析

一、问题重述

科技的进步带来了通信技术的快速发展，并且随着移动通信、互联网业务的迅速发展，手机已经从生活奢侈品变成了生活日用品，是人们日常生活中不可缺少的一部分。

人们随时随地使用手机打电话、发短信、上网，而用户的这些行为以及其个人基本信息均在运营商中有所记录。

因此，分析手机用户的消费倾向及其价值观、社会认可度的倾向对于研究人们的手机消费心理有很大的作用。

与本网高端手机用户相同，异网高端手机用户在消费力度，通话量、以及手机交往圈（与之有通信行为的所有手机用户构成其手机交往圈）大小等方面均远高于整体平均水平。

高端用户往往更关注信号强度和通话质量，追求个性化服务。

他们往往是企业的骨干、是家庭的核心，对电信业务发展有着重要意义，其手机交往圈中多数也是高端手机用户，相互之间产生重要影响。

请根据附件数据完成以下任务：

1、研究本网手机用户行为特征，给出本网高端手机用户的判别准则以及营销优先级。

2、估算异网手机用户的月均消费金额，研究异网手机用户行为特征，并给出异网高端手机用户判别准则以及营销优先级。

3、评估本网、异网高端手机用户的判别准则是否合理以及异网手机用户月均消费金额的估算是否准确，有哪些需要改进的地方，改进方法是什么，还需要什么信息？

4、自行收集手机号码，研究手机号码的靓号分级工作，给出分级标准并评估其合理性。

二、问题分析

由题意知，其目的是建立一种模型用于筛选异网高端用户。

但考虑到本题数据量比较大，我们采用了多次随机不放回抽样取平均值的的方法。

我们首先分别对本网的个人信息表中随机筛选出的三组数据中的套餐档次、月消费金额、流量费、市话费、长途费、漫游费、通话费、增值费、短信费、上网流量以及上网时长做了基本的统计（包括求极大值、极小值、均值、标准差和方差），然后把得出的数据的分析结果互相做了对比，发现数据基本吻合，所以我们的抽样还算成功。

对于本网手机高端用户，我们首先对本网个人信息表中的所有数据运用SPSS进行统计分析，得出本网用户的月平均消费情况。

之后，我们在通过分析以上相关因素的前提下，通过聚类将本网中的手机高端用户筛选出来，然后多次随机抽选出50名手机高端用户，仔细认真的分析了他们的个人信息，发现了本网手机高端用户的一些明显的共有特性，如套餐费，月消费，以及通话费均高于一般用户的平均水平，我们便按照这些特性的标准制定出了本网手机高端用户的判别准则。

之后，我们又对我们所做的判别准则做了改进，将判别准则的定性指标做了定量化的处理，利用客观赋权中的均方差法对选出出来的三个指标（套餐档次、消费金额、通话费）进行了赋权，然后可根据赋权的结果对一个手机号码进行一个评分，根据所得分来判别该号码属于高端用户的隶属度。

再详细分析本网用户的个人信息表，通过上网查资料，给出了本网高端用户的营销优先级。

最后通过本网手机高端用户在本网所有用户中所占的比例和单因子分析的方法，再有假设利用异网手机在二月份的通话频率，最终确定出异网手机高端用户。

最后，通过随机筛选出的本网10名手机高端用户，用SPSS从通话记录表中筛选出他们在二月份的全部通话记录并进行分析，最终确定异网高端手机用户的判别准则。

三、模型的假设

1、假设所给的数据都是准确的。

2、假设异网用户的套餐资费标准与本网的相当。

3、假设异网的手机高端用户和本网的手机高端用户在总的用户中的比例是相当的。

4、假设手机用户可分为高端、中端、低端三种。

5、假设每个号码每月打电话次数和接电话次数大致相当。

四、符号说明

V2本网手机用户的城乡标识

V4本网手机用户的性别

V5本网手机用户的年龄

V6本网手机用户的等级

V10本网手机用户的号码办理日期

V11是否3G用户

V12是否VIP用户

V13本网用户的套餐类型（元）

V14本网用户消费金额（元）

V15本网用户当月上网流量费（元）

V16本网用户当月市话语音费用（元）

V17本网手机用户号码长途语音费用（元）

V18本网手机用户漫游语音费用（元）

V19本网手机用户号码语音费用（元）

V20本网手机用户增值费用（元）

V21本网手机用户短信费用（元）

V24本网手机用户当月上网流量（M）

V25本网手机用户当月上网时长（分钟）

五、模型的建立及求解

首先，我们用ＳＰＳＳ对本网的个人用户信息表中的相关数据进行了分析，其中分析了相关数据的极大值、极小值、均值、方差、标准差，得到结果如下图：

描述统计量

N

极小值

极大值

均值

标准差

方差

V13

376175

0

899

115.59

48.563

2358.377

V14

382779

-360.00

7660.67

39.6269

49.21684

2422.298

V15

382779

-200.00

1000.00

5.2691

19.93548

397.424

V16

382779

-134.30

907.97

15.0395

19.91288

396.523

V17

382779

.00

878.41

8.5099

17.95058

322.223

V18

382779

.00

681.94

2.8733

11.31604

128.053

V19

382779

-86.72

1308.41

26.4226

34.34042

1179.264

V20

382779

.00

7418.00

.2833

13.41839

180.053

V21

382779

-.10

442.13

3.3502

8.37661

70.168

V24

382779

.00

159911.83

79.5486

1141.80056

1303708.530

V25

382779

.00

816.37

32.4218

79.99881

6399.809

有效的N（列表状态）

376175

我们通过分析这张表中的数据，很容易就发现，相关数据的差值波动都比较大，通过分析他们的均值、最大值、最小值、方差，发现他们可以作为我们分析本网高端用户的一些依据。

对这些数据的分析，我们采用Ｑ型聚类分析的方法。

聚类分析的基本思想：

我们所研究的样品（网点）或指标（变量）之间存在程度不同的相似性（亲疏关系——以样品间距离衡量）。

于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，以这些统计量为划分类型的依据。

把一些相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另一类，直到把所有的样品（或指标）聚合完毕，这就是分类的基本思想

Q型聚类分析的优点是：

1、可以综合利用多个变量的信息对样本进行分类；2、分类结果是直观的，聚类谱系图非常清楚地表现其数值分类结果；3、聚类

分析所得到的结果比传统分类方法更细致、全面、合理。

数据标准化：

在实际问题中，不同的数据一般有不同的量纲，为了使不同的量纲也能进行比较，通常需要对数据做适当的变换。

但是，即使这样，得到的数据也不一定在区间

上。

因此，这里说的数据标准化，就是要根据模糊矩阵的要求，将数据压缩到区间

上。

我们采用以下变换方式：

平移·极差变换

，

显然有

，而且也消除了量纲的影响。

其中：

其中

表示第

个分类对象的第

个指标的原始数据。

识别本网高端用户模型

首先我们从个人信息资料表中通过随机不放回抽样的办法抽出1%的数据，数据分析结果如下表：

描述统计量

N

极小值

极大值

均值

标准差

方差

V13

3663

0

399

115.38

48.520

2354.220

V14

3719

-29.80

836.70

39.2967

45.0

9164

2033.256

V15

3719

-66.00

836.70

5.5693

22.91507

525.100

V16

3719

-47.07

202.26

15.1832

19.77025

390.863

V17

3719

.00

193.33

8.0275

15.74393

247.871

V18

3719

.00

208.32

2.8037

10.12559

102.528

V19

3719

-41.20

309.85

26.0143

31.88932

1016.929

V20

3719

.00

84.67

.2229

2.62947

6.914

V21

3719

.00

127.30

3.3607

8.22475

67.647

V24

3719

.00

61945.93

95.8529

1265.03270

1600307.732

V25

3719

.00

717.02

33.5096

79.74177

6358.750

有效的N（列表状态）

3663

我们将这张表中的相关数据同上张表做了比较，发现数据吻合程度较高，说明我们的抽样还是成功的，我们以供选择三次抽样求平均值的办法，由于篇幅限制，后两张表见附件。

对选出来的数据我们进行了Q型聚类分析，将他们分成了三类，结果如下图：

我们依照上面办法做了三次抽样，平均其结果，以达到较高的准确率。

然后，我们从筛选出的本网高端用户中有随机筛选出50名高端手机用户，对他们

的个人信息又做了更加细致的研究，如此反复三次，求平均值。

其中一组信息如下：

统计量

V2

V4

V5

V6

V10

V11

V12

N

有效

50

47

50

缺失

0

3

0

V2

频率

百分比

有效百分比

累积百分比

有效

-1

15

30.0

0

29

58.0

88.0

1

2

4.0

92.0

2

4

8.0

100.0

合计

50

100.0

V4

频率

百分比

有效百分比

累积百分比

有效

3

6.0

F

17

34.0

40.0

M

30

60.0

100.0

合计

50

100.0

V5

频率

百分比

有效百分比

累积百分比

有效

19

1

2.0

2.1

22

1

2.0

2.1

4.3

23

2

4.0

4.3

8.5

24

2

4.0

4.3

12.8

25

2

4.0

4.3

17.0

26

3

6.0

6.4

23.4

27

6

12.0

12.8

36.2

29

1

2.0

2.1

38.3

30

2

4.0

4.3

42.6

31

2

4.0

4.3

46.8

32

2

4.0

4.3

51.1

33

3

6.0

6.4

57.4

34

1

2.0

2.1

59.6

35

1

2.0

2.1

61.7

36

2

4.0

4.3

66.0

38

1

2.0

2.1

68.1

39

2

4.0

4.3

72.3

40

1

2.0

2.1

74.5

41

1

2.0

2.1

76.6

43

2

4.0

4.3

80.9

45

1

2.0

2.1

83.0

47

1

2.0

2.1

85.1

48

1

2.0

2.1

87.2

50

1

2.0

2.1

89.4

52

1

2.0

2.1

91.5

55

2

4.0

4.3

95.7

58

1

2.0

2.1

97.9

67

1

2.0

2.1

100.0

合计

47

94.0

100.0

缺失

系统

3

6.0

合计

50

100.0

V6

频率

百分比

有效百分比

累积百分比

有效

-1

14

28.0

2

4.0

32.0

3

26

52.0

84.0

4

8

16.0

100.0

合计

50

100.0

V11

频率

百分比

有效百分比

累积百分比

有效

0

38

76.0

1

12

24.0

100.0

合计

50

100.0

V12

频率

百分比

有效百分比

累积百分比

有效

-1

14

28.0

2

4.0

32.0

3

26

52.0

84.0

4

8

16.0

100.0

合计

50

100.0

最后，我们对初级筛选出的本网高端用户进行了具体分析，发现他们的年龄大部分都在25岁以上，其中35岁以上的占大多数；手机号码办理平均年限在2年以上；70%的高端用户户口在市区；3G用户和VIP用户比例也远远高于非高端用户。

其它相关变量未发现有直接关系。

经过以上分析总结，我们给出的本网手机高端用户最初的基本判别准则为：

1、消费级别在月平均120元以上。

其中，通话费在月平均79元以上。

套餐级别在月平均137元以上

2、户口在市区。

3、手机号码使用年限平均在2年以上。

4、平均年龄在35岁以上。

5、3G用户和VIP用户可以优先考虑。

（说明：

以第一第二条为主要指标）

之后我们又对其中的对高端用户影响较大的变量进行了分析，最后发现其中的套餐档次、消费金额、通话费对本网手机高端用户判别的影响较大，故对这三个指标采用了客观赋权的办法，最终完成了将定性指标定量化。

客观赋权：

均方差法

记第j项指标的样本均值与样本均方差为

则取第j项指标的权重系数为

由上式我们求得套餐档次的权重系数X1=38.66%;消费金额的权重系数X2=35.93%;通话费的权重系数X3=25.41%。

号码得分公式X=X1*V13+X2*V14+X3*V15

最后，我们利用matlab算出了我们随机挑选的50名本网手机高端用户的各自得分，所得信息如下表：

最大值

最小值

平均值

174.82

61.334

108.25554

所以我们可以认为，如果一个号码得分超过最小值，我们便可以认为这个手机号码的主人就是手机高端用户；如果一个号码得分小于这个值，我们可以利用公式Y=X/61.334*100%来求出这个手机号码属于高端用户的隶属度。

关于营销优先级，我们在网上得到的定义是：

由于不同级别的客户对不同的套餐感兴趣，所以网络运营商根据不同级别客户的喜好，而推出具有针对性的优惠套餐。

而对于本网的高端客户来讲，我们认为应当给出的营销优先级为：

1在提高通话质量的前提下适当降低资费

2对使用一定年限的手机号码给予一定的优惠

3优化分层套餐结构，让不同消费阶层的人感到实惠。

异网高端识别

关于异网高端用户平均月消费金额，我们假设异网的资费标准同本网的资费标准大致相当，所以得出，异网月平均消费金额大约为40元。

对于异网高端识别这个模型，因为异网还有联通，移动等其他多个运营商，我们以联通用户为例。

我们用SPSS软件对用户的通话清单表做了处理，把标识为联通的手机号码提取了出来，然后用SPSS软件统计出了他们在二月份被叫的频率。

但由于数据量巨大，我们只选取其中的部分数据进行统计分析。

我们在对随机抽取其中的1%、2%、3%、4%的数据进行分析以后发现通话频率随着抽取数据的增多不断加大，所以，我们可以认为如果把全部数据都进行分析的话，将会有部分用户的通话频率非常高，而我们就认为这部分用户为异网高端用户。

结果如下表

统计量

V3

N

有效

189326

缺失

0

由于另一部分数据量较大，故不再附

最后我们由模型1可以得到本网高端用户在本网所有用户中所占的比例大约为10.2%，然后按照这个比例我们就可以利用单因子分析法，通过联通用户的被叫的频率来确定联通用户中的手机高端用户。

关于判别准则的给出，我们从本网高端用户中随机筛选出10名高端用户，把他们二月份的通话记录从通话记录表中调了出来，分析了他们的通话频率，分析结果如下表：

通话频率分析表

最大值

最小值

平均值

458

127

289

由于假设打电话和接电话的次数大致相当，所以，我们可以认为每月的通话频率大于127次的号码都为高端用户，小于127次的可利用公式H（高端用户隶属度）=Z（通话频率）/127求出。

而对于手机号码的靓号分级工作，我们的思路是从全部的手机号码的高端用户中确定，但具体的手机号码收集工作，由于我们能力和相关知识有限，故暂时不再考虑。

六、模型评价与改进方向

对模型的评价，对于本网识别高端用户的模型，由于我们采用抽样分析的办法，所以还存在随机性的误差，误差大小不好把握。

但可以通过多次试验求平均值的办法来尽量减小误差。

而对于判别准则的给出，由于我们缺乏这方面的相关知识而采用上网查资料和我们对数据的分析相结合的办法，通过我们的理解给出，缺乏官方的权威，具有一定的局限性。

改进措施可以将更多定性指标定量化，例如，城乡户口，年龄等等，再次可以通过加强与相关工作人员的联系，从他们哪儿得到相关信息和定义，由此，可以给出较为准确的判别准则。

对于异网的月均消费金额，由于我们缺少相关资费标准和信息，所以假设异网同本网的资费标准相当，得到的值可能会有较大误差。

异网的高端用户的判别准则由于采用通话频率这个单因子分析的办法，也会因为不确定因素的存在，而出现较大的误差。

但这些误差可以通过分析其他的数据来减少，例如，通话时长和用户的交际面等。

通过以上分析，我们认为，缺少的数据还有异网相关用户的个人信息，还有就是方法上面，假如能用某种方法将附表一与附表二中的数据进行有效合并，结果会更加理想化。

七、参考文献

1、《数据分析》范金城、梅长林编著，2002年7月

2、《概率统计与SPSS应用》于义良罗蕴玲安建业编著，2009年8月

3、《SPSS统计分析与应用》吕振通张凌云编著，2009年6月

4、《SPSS17中文版统计分析典型实例精粹》赖国毅陈超编著，2010年3月

5、《以Excel和SPSS为工具的管理统计》张建同孙昌言编著，2005年9月

八、附件

附件如下：

数据2

描述统计量

N

极小值

极大值

均值

标准差

V13

3765

0

500

115.77

49.363

V14

3831

-26.20

1065.30

39.4709

49.10740

V15

3831

-3.09

698.07

5.8195

22.75275

V16

3831

-37.44

907.97

14.6153

23.38480

V17

3831

.00

300.87

8.2689

16.51139

V18

3831

.00

193.33

2.9819

11.22539

V19

3831

-37.44

1028.99

25.8661

35.91971

V20

3831

.00

94.67

.2592

2.67324

V21

3831

.00

100.93

3.2808

7.96187

V24

3831

.00

16121.44

78.6565

626.05246

V25

3831

.00

676.93

32.9458

80.35540

有效的N（列表状态）

3765

数据三

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 手机用户高端识别模型

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：手机用户的异网高端识别模型.docx
链接地址：https://www.bingdoc.com/p-15816434.html

手机用户的异网高端识别模型.docx

热门标签