职场新人识别.docx
- 文档编号:4033723
- 上传时间:2023-05-06
- 格式:DOCX
- 页数:44
- 大小:208.03KB
职场新人识别.docx
《职场新人识别.docx》由会员分享,可在线阅读,更多相关《职场新人识别.docx(44页珍藏版)》请在冰点文库上搜索。
职场新人识别
B题:
职场新人识别
职场新人识别
摘要
本文以层次分析方法为基础,解决了职场新人识别和职场新人教育背景的识别以及预测数据不全的职场新人职业类型的问题,并对…作了…分析,以…方法检验了模型的准确性和方法的可靠性。
对于问题
(1),为了识别该城市的职场新人,首先筛选出15至30岁的手机用户群体,再在这些群体中选择,消费金额,流量费,市话费,长话费,通话费,短信费,上网流量,上网时长9个因素为主要影响因素,控制各个影响因素合适的标准得到190个职场新人,让这190个职场新人作为判断综合评分范围。
再利用主成分分析法得到主成分F与各原始变量X的线性组合关系,建立了主成分分析方法的数学模型,同时计算各个主成分的贡献率和累加贡献率,得到主成分的关系表达式。
然后计算190个职场新人的综合得分和所有手机用户的综合得分,如果属于职场新人的得处分处在得分区间就可以得到该城市的职场新人。
对成分分析模型进行了求解,得到的结果是一共有7058职场新人,结合附件4的区号,可以知道该结果比较符合安徽省合肥市实际的就业情况,误差较小。
对于问题
(2),基于筛选出的职场新人,这些职场新人中,有一部分的职场新人信息不详,为了补全这些信息不详的职场新人,我们建立了BP神经网络模型,利用训练网络来预测这些信息,并对BP神经网络模型进行了求解,由于神经网络模型的不稳定性,多次运行程序进行训练就可以得到这些手机价格的稳定值。
对于问题(3),由于问题已经筛选出了职场新人,并且这些职场新人的职业类型有50类,对于其他职业信息不详的手机用户,我们不考虑这些手机用户属于其他职业,采用距离判别分析模型,将这些职业作为总体,各个职业类型不详的手机用户作为样本,计算各个样本与总体之间的马氏距离,将马氏距离最小的与总体归为一类,就可以预测出这些职业信息不详的职场新人的职业类型。
对于问题(4),为了确定该城市职场新人的教育背景,在问题一筛选出来的所有职场新人的基础上,我们将所有的职场新人分为硕博生,本科生,专科生,以及专科以下四类人,建立距离判别模型,再通过SPSS得到4类聚类中心,计算每一类偏离聚类中心的距离,偏离聚类中心越小的手机用户其学历越高,即偏离聚类中心最远的为专科及以下学历。
关键词:
主成分分析法,BP神经网络模型,聚类分析法,马氏距离,SPSS因子分析法。
一.问题重述
职场新人,通常指处于毕业前的实习阶段或刚毕业离开校园(专科或专科以上)工作不到1年的年轻群体。
他们虽然收入不高,但暂时也没有太多压力,经常追求新鲜事物、乐于且敢于消费。
他们有着各自的职业追求,是社会的潜在精英,将成为运营商未来的高端用户。
职场新人正处于人生的十字路口,在各方面即将进入全面转型。
根据以上数据,请建立数据模型并解决以下问题:
根据附表中的数据,识别该城市的职场新人;
对于手机信息不详的职场新人,请估算其终端大致的价格范围;
对于职业类型不详的职场新人,请预测其职业类型;
请识别职场新人的教育背景,如重点院校、非重点院校、专科本科、硕博等;
二.问题分析
问题一主要研究该城市职场新人的识别问题,首先用Excel筛选出15至30岁大约10万个手机用户年轻群体,由于问题可能的影响因素较多,我们只考虑套餐档次,消费等9个主要影响因素,然后根据实际情况确定职场新人的标准,筛选出理想的职场新人,最后用主成分分析法得到各个主要影响因素的贡献率,利用所有手机用户年轻群体的综合得分就可以筛选得到该城市的职场新人。
问题二主要研究信息不详的职场新人的终端大致价格范围,利用BP神经网络模型对这些影响因素多次进行训练得到稳定的价格值。
问题三主要研究信息不祥的职场新人的职业类型,将职场新人分为27类职业,在这里我们假定职业信息不详的人只属于这27类职业,不存在属于其他职业的情况,采用距离判别法,这些手机用户离哪个职业最近就可以得到信息不全的人属于哪一个职业。
问题四主要研究职场新人的教育背景问题,正常情况下,重点院校对学历要求较高,因此我们考虑硕士以上学历的为重点院校的。
我们将所有职场新人分为硕博生,本科生,专科生,专科以下四类职场新人,再用聚类分析法将每一类的聚类中心偏离初始聚类中心的大小进行分类,离聚类中心越近,该职场新人的学历越高,反之越低。
三.模型的假设
1.假设这些手机用户在这个月中没有更换手机号。
2.假设这些手机用户使用手机行为在很常一段时间内没有异常。
3.假设该城市的职场新人年龄范围为15至30岁。
4.假设附表所给数据真实可靠。
5.假设这些手机用户在这个月中不改变行业.
6.假设本网手机用户没有较大范围的人口迁移。
四.符号说明
:
第i个指标第j个样本的原始数据
:
第i标的样本均值
:
第i指标的标准差
:
第i个指标第j个样本的相关系数
:
贡献率
E
:
累计贡献率
五.模型的建立与求解
5.1.问题一
5.1.1.主成分分析模型的建立:
主成分分析法是利用降维的思想,通过线性组合把原来众多指标转化为少数几个互相无关的指标,而保持原指标大量信息的一种多元统计分析方法。
主成分分析去除了一般赋值方法中的主观因素,因而此方法更为合理科学,具体操作步骤如下:
1)为了排除数量级和量纲不同带来的影响
首先对原始数据进行标准化处理:
式中,
为第
个指标第
个样本的原始数据;
和
分别为第
个指标的样本均值和标准差。
(2)根据标准化数据表
,为简单起见,将标准化数据表
仍记为
,计算相关系数矩阵
,其中
(3)根据特征方程
,计算
的特征根
,并使其从小到大排列:
同时可得对应的特征向量
,它们标准正交。
称为主
轴。
其中
说明:
,这表明第一主成分方差最大,也说明了为什么主成分的名次是按特征值的大小顺序排列的。
(4)计算贡献率和累计贡献率
贡献率
累计贡献率
当
时,前m个主分量称为公共因子,此时可以选用前m个主分量代替原来n个变量,n个向量在第个公共因子的载荷向量为
第j个变量在全部m个公共因子上荷载的平方和叫做变量的公共性
从而有
它的大小反映了变量j在公共性部分的作用或重要性层度。
把每个变量公共性的方根
作为该变量的权重。
第一主成分的贡献率
就是第一主成分的方差在全部方差中的比值。
这个值越大,表明第一主成分综合
的信息越强。
(5)写出主成分
5.1.1主成分分析模型的求解
(1)数据处理,基于所给样本数据,首先用MATLAB筛选出符合职场新人标准的一共21599个用户群体,由于这其中有很大一部分用户群体的信息不全,对问题的研究将会产生很大影响,继续进行筛选15-30岁手机用户得到7058个职场新人。
我们通过计算各个影响因素的均值,偏差来确定评价标准。
用户资料
套餐档次(元)
消费金额(元)
流量费(元)
市话费(元)
长途费(元)
通话费(元)
短信费(元)
上网流量(M)
时长(分)
标准
>100
>100
>10
>50
>10
>50
>10
>50
>100
表5.1职场新人的评定标准
我们取套餐档次,消费金额,流量费,市话费,长话费,通话费,短信费,上网流量,上网时长9个因素为主要影响因素,控制如上表各个影响因素合适的范围,确定职场新人的标准得到132个职场新人,用这132个职场新人作为判断综合评分范围。
以上述9个因素为分析变量,运用主成分分析法对数据进行分析,得到如下结果:
(1)将数据标准化,标准化结果如附表
(1)
(2)指标间的相关系数矩阵,如附表
(2)
(3)R的特征值,如附表(3)
(4)R特征向量,如附表(4),由附表(4)可以看出,前5个特征值累计贡献率已达到85%,说明前5个主成分基本包含了全部指标具有的信息。
(5)主成分载荷,如附表(5)
(6)分别以前5个主成分的贡献率为权重,求得综合因子得分如附表(6)
我们取这190名职场新人的综合区间得分来判断所有职场新人的标准,标准为[3,187],用这个标准我们一共得到7058名职场新人,由附件提供的数据我们可以知道区号0551的用户占到所有用户的57.89%,而区号为0551的是安徽省合肥市,由中国统计年鉴安徽省合肥市的就业率和得到的结果比较接近,效果很好。
问题一模型的评价:
优点:
(1)本文采用主成分分析模型,该模型的主成分并不是人为确定的,而是根据各影响因素的方差贡献率的大小确定的,克服了人为的主观因素,使得综合评价结果唯一,客观合理,有说服力。
(2)该方法用较少的指标来代替原来较多的指标,并使这些较少的指标尽可能地反映原来指标的信息,从根本上解决了指标间的信息重叠问题,又大大简化了原指标体系的指标结构。
不足:
(1)为了使问题简化,我们忽略了很多可能影响的因素,比如停机次数,号码变更次数,身份证,性别等.
(2)此方法的计算过程比较繁琐,且对样本量的要求较大,评价的结果跟样本量的规模有关系。
(3)在筛选的过程中,由于部分手机用户的年龄信息不祥,剔除了很多可能的职场新人。
5.2.问题二
5.2.1.BP神经网络模型的建立
我们建立了一般的BP神经网络模型来预测信息不详的职场新人的手机价格范围
所谓BP神经网络,就是指采用Widrow-Hoff学习算法和非线性可微转移函数的多层网络。
典型的BP算法采用梯度下降法。
如图1所示,BP神经网络包括以下单元:
①处理单元(神经元)(图中用圆圈表示),即神经网络的基本组成部分。
输入层的处理单元只是将输入值转入相邻的联接权重,隐层和输出层的处理单元将它们的输入值求和并根据转移函数计算输出值。
②联接权重(图中如V,W)。
它将神经网络中的处理单元联系起来,其值随各处理单元的联接程度而变化。
③层,神经网络一般具有输入层x、隐层y和输出层o。
④阈值。
其值可为恒值或可变值,它可使网络能更自由地获取所要描述的函数关系。
⑤转移函数F。
它是将输入的数据转化为输出的处理单元,通常为非线性函数。
BP算法主要包含4步,分为向前传播和向后传播两个阶段:
1)向前传播阶段
(1)从样本集中取一个样本(Xp,Yp),将Xp输入网络;
(2)计算相应的实际输出Op。
在此阶段,信息从输入层经过逐级的变换,传送到输出层。
这个过程也是网络在完成训练后正常运行时的执行过程。
2)向后传播阶段
(1)计算实际输出Op与相应的理想输出Yp的差;
(2)按极小化误差的方式调整权矩阵。
这两个阶段的工作受到精度要求的控制,在这里取作为网络关于第p个样本的误差测度,而将网络关于整个样本集的误差测度定义为。
根据Kolmogorov定理,对于任意给定的L2型连续函数f:
[0,1]n→Rm,f可以精确地用一个三层前向神经网络来实现,因而可以只考虑演化网络的权值和结点数而不影响演化结果。
基于此,在BP原有算法的基础上,增加结点数演化因子,然后记录每层因子各异时演化出的结构,最后选取最优的因子及其网络结构,这样就可以避免由于增加或剪枝得到的局部最优。
根据实验得知,不同的预测精度也影响网络层神经元的结点数,所以可根据要求动态地建立预测系统。
BP算法中对网络的权系数进行递归求区的步骤如下:
第一步:
对权系数
赋初值,各层的权系数
赋一个比较小的非零随机数,其中
第二步:
输入一个样本
,以及对应期望输出
第三步:
计算各层输出,对于第k层第i个神经元的输出
,有
其中,
第四步:
求各层的学习误差
,对于输出层有k=m,则有
对于其他层有
第五步:
修正权系数
第六步:
求出各层各个系数之后,可按照给定指标判别是否满足要求,如果不满足,返回第三步,一旦满足,立即结束。
BP神经网络图如下:
图5.2.1BP神经网络流程图
5.2.2模型的求解
为了利用BP网络求解问题,可把问题分成以下6个模块进行处理:
原始数据的输入,包括输入数据矩阵和目标数据矩阵;
对输入数据矩阵和目标矩阵的数据进行归一化;
利用处理好的数据对网络进行训练;
利用训练好的BP网络对原始数据进行仿真;
用原始数据仿真的结果与已知数据进行对比测试;
利用训练好的BP网络对新数据进行仿真。
网络的学习曲线如图5.2.2(a)所示,可以看出网络训练所得的误差很小,达到目标值。
图5.2.2(a)是实际手机价格与网络输出手机价格之间训练和测试的对比图,显然两者之间非常接近,误差极小,因此可以放心的训练。
图5.2.3(b)运用Matlab自带神经网络工具箱生成的原始数据与仿真数据的对比图
我们将程序多次运行,确定了手机的价格值,由于数据过多,我们选取20个预测的手机价格表,如表5.2.3
模型检验:
根据预测的手机价格和附表提供的手机价格进行对比进行检验,如表5.2.4
5.2.3问题二的模型评价
优点:
BP神经网络模型在经过反复训练之后能比较准确,且该模型非线性好,拟合度较高
缺点:
由于神经网络不能完全稳定,所以每次的运行结果也不会都相同,需要多次运行程序才能确定手机价格的大概范围。
5.3问题三
5.3.1距离判别模型的建立
距离判别法的基本思路:
首先根据已知分类的数据,分别计算各类的聚类中心,判别准则是对任给的一次观测,若它与第i类的聚类中心越近,就认为它来自第i类。
具体操作步骤如下:
数据的标准化处理:
(2)样本与总体的马氏距离:
(3)首先计算
判断准则为:
再用均值向量和协差阵,将判断准则写成:
5.3.2距离判别模型的求解
在问题一筛选出来的职业新人的基础上,这些职业新人所有的职业分为27类,我们认为未知职业的手机用户都只属于这27类。
采用距离判别法对问题进行求解,利用MATLAB编程得到职业信息不全的用户的职业类型,如下表5.3.2
本网手机号码
职业类型
8223250
24811716
82923649
85689311
2033247
70352216
128237747
90897342
53544116
83571220
1610220
88167247
33265511
表5.3.2信息不全的职业归属表
5.3.3.问题三的模型评价
(1)马氏距离可以使原始数据不受各指标量纲的影响,两点之间的马氏距离与原始数据的测量单位无关,原始数据和均值的差计算出的两点之间的马氏距离相同
(2)马氏距离可以排除指标之间相关性的干扰
5.4问题四
5.4.1模型的建立与求解
和问题三的方法一样,我们采用距离判别法,但在问题三的基础之上,我们将所有人分为硕博生,本科生,专科生以及专科以下学历四类职场新人,再用聚类分析法计算各类离聚类中心的距离,当这个距离小时就属于该类,当距离大的时候就不属于该类,运用SPSS就可以得到职场新人的教育背景。
由于未知职场新人的教育背景人数较多,我们任意选取108个职场新人进行求解,求解结果如附表(6)。
六.模型的推广
本文在识别该城市的职场新人时,采用了主成分分析法,在估算信息不详的职场新人的手机价格时运用了BP神经网络模型,用距离判别分析模型判断未知用户属于哪个职业。
这些模型在气象观测,经济增长差异变量等领域中有着重要的作用。
七.参考文献
【1】李志林,欧宜贵.数学建模及典型案例分析【M】.北京:
化学工业出版社,2006.12
【2】戴明强,李卫军,杨鹏飞.数学建模及其应用【M】.北京:
科学出版社,2007
【3】姜启源,谢金星,叶俊.数学模型【M】.北京:
科学出版社,2007
【4】卓金武.MATLAB在数学建模中的应用【M】.北京:
北京航空航天大学出版社,2011.7
【5】王正林,龚纯,何倩.精通MATLAB科学计算【M】.北京:
电子工业出版社,2009
八.附录
附表
(1):
数据的标准化
标准化结果
套餐档次
消费金额
流量费
市话费
长途话费
通话费
短信费
上网流量
上网时长
0.007419505
0.00339741
-6.6E-05
0.003358
0.008443
0.00443
0.000528
0.00259
0.011701
0.009286048
0.00809846
0.010855
0.01168
0.003992
0.007582
0.004472
0.005196
0.014448
0.007419505
0.00979615
0.016057
0.005262
0.01425
0.008782
0.008711
0.011296
0.00914
0.006019599
0.00377449
0.002207
0.005791
0.003158
0.004116
0.002588
0.007458
0.004023
0.007419505
0.00557705
0.008585
0.006285
0.00198
0.004795
0.006691
0.009819
0.008983
0.007419505
0.00795456
0.004717
0.004781
0.014327
0.007175
0.016324
0.005368
0.009557
0.007419505
0.00679991
0.01195
0.005128
0.01131
0.00643
0.003334
0.001967
0.003357
0.013952403
0.00980837
0.004443
0.005026
0.027184
0.012217
0.002746
0.007877
0.011798
0.006019599
0.00673169
0.00277
0.004773
0.007571
0.005278
0.020836
0.002279
0.003412
0.009286048
0.01174805
0.005922
0.015272
0.014993
0.014349
0.005879
0.005167
0.006282
0.007419505
0.00614351
0.002223
0.005795
0.009376
0.007169
0.004304
0.002888
0.009359
0.007419505
0.01147415
0.011195
0.012636
0.005586
0.009227
0.022394
0.004222
0.006737
0.006019599
0.00442919
0.006717
0.00459
0.001809
0.003052
0.009153
0.005161
0.008497
0.009286048
0.007215
0.006898
0.005903
0.01292
0.007892
0.004631
0.006719
0.003583
0.009286048
0.00840901
0.002672
0.004766
0.015279
0.009878
0.00804
0.002077
0.003748
0.009286048
0.00713694
0.005904
0.008677
0.001625
0.005808
0.016992
0.004862
0.007339
0.009286048
0.00730256
0.006469
0.008331
0.008142
0.007401
0.006892
0.004966
0.00598
0.007419505
0.00552682
0.008166
0.006157
0.004278
0.004656
0.007437
0.023808
0.004388
0.007419505
0.00923206
0.015045
0.009911
0.014413
0.009912
0.003525
0.002892
0.012485
0.009286048
0.01280494
0.043534
0.009055
0.006173
0.007804
0.004404
0.024669
0.011649
0.013999067
0.00788735
0.01778
0.008503
0.008587
0.014466
0.002714
0.013633
0.008313
0.006019599
0.01655126
0.005935
0.018643
0.006762
0.015187
0.0035
0.02016
0.009614
0.007419505
0.00540192
0.004822
0.006133
0.003929
0.005556
0.004264
0.004092
0.004231
0.007419505
0.01009788
0.006515
0.004479
0.010878
0.007187
0.02973
0.004388
0.004896
0.007419505
0.00606952
0.004605
0.004537
0.01162
0.006949
0.003751
0.001799
0.003758
0.007419505
0.00790874
0.007866
0.009104
0.008418
0.008528
0.005369
0.003578
0.010693
0.007419505
0.00613536
0.003118
0.010937
0.005786
0.00772
0.006892
0.006649
0.005355
0.009286048
0.00662342
0.003197
0.005005
0.006346
0.005716
0.010661
0.028714
0.014969
0.013952403
0.00877625
0.006971
0.004494
0.012765
0.00983
0.004648
0.008876
0.011138
0.005086328
0.0115142
0.016895
0.010007
0.012741
0.011845
0.00402
0.010078
0.003765
0.009286048
0.00987557
0.00318
0.005991
0.013166
0.007396
0.03267
0.001779
0.003094
0.009286048
0.00790908
0.013205
0.008773
0.006947
0.007043
0.004673
0.009825
0.00862
0.006019599
0.0101644
0.002578
0.021584
0.004274
0.01307
0.004615
0.003286
0.012843
0.007419505
0.00419534
0.006642
0.005337
0.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 新人 识别