应用多元统计分析毕业论文已过查重优秀毕业论文.docx
- 文档编号:17918933
- 上传时间:2023-08-04
- 格式:DOCX
- 页数:16
- 大小:216.96KB
应用多元统计分析毕业论文已过查重优秀毕业论文.docx
《应用多元统计分析毕业论文已过查重优秀毕业论文.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析毕业论文已过查重优秀毕业论文.docx(16页珍藏版)》请在冰点文库上搜索。
应用多元统计分析毕业论文已过查重优秀毕业论文
财经大学
应用多元统计分析
期末论文
作者慧斌
系别统计与数学学院
专业信息与计算科学
年级2012级
学号122093118
指导教师勇
导师职称讲师
我国地区经济发展浅析
摘要:
以聚类分析法、主成分分析法、因子分析法三种多元统计分析方法为主,对2011年我国31个省、市、自治区的地区经济发展状况以及影响地区经济发展的主要因素(指标)相结合进行剖析。
根据不同分类方法得出不同的分析结果,从不同角度分析我国各地区经济发展存在的主要差异以及导致这些差异出现的原因,并最终就三种统计分析方法的结果对我国目前地区经济发展状况进行客观的综合概述。
关键字:
地区发展水平聚类分析法主成分分析法因子分析法
一、引言
在日常生活过程中,我们常常遇到一些计算量大,分析工作复杂度高的数据分析工作,为了能够更加简便地进行数据分析,在此给大家介绍几种多元统计分析的方法。
本文主要运用了聚类分析法,主成分分析法和因子分析法对2011年我国31个省市自治区地区经济发展水平以及影响地区经济发展的几项重要指标进行了统计分析。
二、聚类分析
聚类分析是应用最广泛的一种分类技术,它把性质相近的个体归为一类,使得同一类中的个体具有高度的同质性,不同类之间的个体具有高度的异质性。
聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上的相似程度进行分类。
通常我们用距离来度量样品之间的相似程度,用相似系数来度量变量之间的相似程度。
1.参与聚类的样本总量表
通过观察上表,我们可以看出,在整个聚类过程中,描述我国所有省、市、自治区经济发展状况的31个样品都参与了聚类分析过程,没有遗失或未参与的样品。
这充分说明此次聚类分析已经对全部31个样品的各项指标进行了相似聚类,不需要再利用判别分析进行二度聚类。
2.样品聚为3类时的样品归类表
ClusterMembership
Case
3Clusters
1:
Case1
1
2:
Case2
1
3:
Case3
1
4:
Case4
2
5:
Case5
1
6:
Case6
1
7:
Case7
2
8:
Case8
2
9:
Case9
1
10:
Case10
3
11:
Case11
3
12:
Case12
2
13:
Case13
1
14:
Case14
2
15:
Case15
3
16:
Case16
1
17:
Case17
1
18:
Case18
1
19:
Case19
3
20:
Case20
2
21:
Case21
2
22:
Case22
2
23:
Case23
1
24:
Case24
2
25:
Case25
2
26:
Case26
2
27:
Case27
2
28:
Case28
2
29:
Case29
2
30:
Case30
2
31:
Case31
2
3.所有样品的聚类树形图
(1)结合以上样品归类情况表和聚类树形图,分别给出了将2011年我国31个自治区、省、市经济发展状况作为样品聚类分为三类时的各样品所属类别。
观察聚类树形图我们不难看出聚类样品最适合分为三类:
第一类包括11个样品(包含:
市、市、省、自治区、省、省、省、省、省和省)。
通过地区分布和地区经济发展状况,第一类所包含的省、市、自治区主要分布在我国高校林立、资源丰富、交通便利等优质条件的省、市、自治区。
(2)第二类包括16个样品(包括:
省、省、省、省、省、广西壮族自治区、省、省、省、省、市、省、省、省、回族自治区、维吾尔自治区)。
通过地区分布和地区经济发展状况,第二类所包含的省、市、自治区主要分布在我国自然气候条件恶劣、各方面资源有限、人才缺乏、交通不发达、自然条件相对恶劣、城市化水平低等经济发展单一落后的地区。
(3)第三类包括4个样品(包括:
省、省、省和省)。
通过地区分布和地区经济发展状况,第三类所包含的省、市、自治区主要分布在我国东南沿海和临海的华中地区。
这些地区高校林立、人才集中基数大、工业高度发达、海陆空交通发达、有中国尖端技术又有国外先进管理文化渗入、经济高速发展等地区。
近年来,这些地区涌入大量外来务工发展的人潮,这些社会现象向我们表明这些地区对人才和劳动力的吸引力;也让人们意识到了这些地区丰富的就业机遇和个人发展前景;更重要的是,国外先进的技术和人才以及眼界开阔的海归们也积极投入到了这些地区的经济发展中,促使这些地区的经济蓬勃发展;同时也在不断地加剧地区之间抢夺资源和地区发展不平衡的矛盾,使中国国地区贫富差距和国民生活水平差距进一步拉大。
三、主成分分析
主成分分析也称主分量分析,是一种将多个指标化为少数几个综合指标的统计分析方法。
在经济问题研究中,为了全面、系统地分析问题,我们必须考虑众多对某经济过程有影响的因素,这些因素在统计学中被称为指标(即变量),每个指标都在不同程度上反映了所研究问题的某些信息,但在指标之间彼此有一定的相关性,因而所得的统计数据在一定程度上反映的信息有重叠。
主成分分析可将相关的指标化成不相关的指标,避免了信息重复带来的虚假性。
此外,主成分分析能用较少的变量反应更多的问题,减少计算量的同时简化了问题。
1.单变量描述统计量表
(1)由上表第二栏均值可以看出,2011年我国31个省市自治区经济发展地区生产总值均值为16820.68亿元;工业发展均值为7479.8642亿元;建筑业均值为1030.3368亿元······但人均生产总值均值却只有39441.87元。
这些数据显著地反映了中国地大物博,经济高速发展,国生产总值堪比世界任何一个发达国家,可当与中国庞大的人口系统相比较时,我们便黯然了。
(2)由上表第三栏标准差可以看出,2011年我国31个省市自治区经济发展地区生产总值标准差高达13216.28621;工业标准差也高达6296.67453;即使是标准差最小的住宿和餐饮业也高达277.56833。
由此可见我国地区发展极不均衡,地区贫富差距仍然非常大。
(3)由上表第四栏参与计算的观测量数可以得知,此次统计分析的样品数量为我国31个省市自治区的地区发展各项指标。
2.各变量相关矩阵图
上表表示的是影响我国经济发展水平的10个主要指标之间的相关性。
由上表可以看出,各变量与自身的完全相关性是毋庸置疑的。
其次我们可以看出,各个指标之间也存在一定的相关性,如地区生产总值与工业之间的相关系数高达0.988;与住宿和餐饮业之间的相关系数高达0.958;与批发零售业之间的相关系数高达0.957;与房地产业之间的相关系数高达0.954;与交通运输、仓储和邮政业之间的相关系数高达0.923;与其他服务业之间的相关系数高达0.921;与建筑业之间的相关系数高达0.92;与金融业之间的相关系数高达0.818;而与人均生产总值之间的相关系数为0.407。
据此我们可以判断出,地区生产总值与工业、建筑业、交通运输、仓储和邮政业、批发零售业、住宿和餐饮业、金融业、房地产业以及其他服务业之间的发展都是密切相关的,而在这众多相关的指标中,地区生产总值与工业的发展关系最密切。
3.总方差分解图
由上表可以看出,通过主成分分析过程,我们从众多指标中提取出了三个主成分因子,这三个主成分因子的特征值分别为8.253,1.035和0.31;它们的各因子方差贡献率分别为82.531%,10.347%和3.099%;以及在最后一栏,我们可以得知这三个主成分因子的累积方差贡献率最终达到95.977%。
4.旋转前的因子载荷矩阵图
5.利用因子载荷矩阵图计算出的特征向量表
第一特征向量
第二特征向量
第三特征向量
0.3446111
0.340434
0.3376492
0.3348645
0.3310355
0.3258141
0.3185042
0.3094538
0.3073652
0.1789193
-0.1307318
0.0658574
0.017693
-0.2142823
0.1189365
-0.2221459
-0.1258171
-0.2919351
0.3548436
0.8011013
0.0287368
0.001796
-0.2909606
0.1293158
-0.3592106
-0.202954
0.5046909
0.3628027
-0.3933356
0.4292566
根据以上利用因子载荷矩阵图计算出的特征向量表,带入以上已求出的3个特征向量,可得以下3个主成分因子的表达式为:
Y1=0.3446111X1+0.340434X2+0.3376492X3+0.3348645X4+0.3310355X5+0.3258141X6+0.3185042X7+0.3094538X8+0.3073652X9+0.1789193X10
Y2=-0.1307318X1+0.0658574X2+0.017693X3-0.2142823X4+0.1189365X5-0.2221459X6-0.1258171X7-0.2919351X8+0.3548436X9+0.8011013X10
Y3=0.0287368X1+0.001796X2-0.2909606X3+0.1293158X4-0.3592106X5-0.202954X6+0.5046909X7+0.3628027X8-0.3933356X9+0.4292566X10
三、因子分析
因子分析是主成分分析的推广,它也是一种把多个相关变量(指标)化为少数几个不相关变量的统计分析方法。
因子分析的目的不仅是找出公因子,更重要的是知道每个公因子的意义。
但是用其他方法求解所求出的公因子解,各因子的典型代表变量不很突出,因而容易使因子的意义含糊不清,不便于对因子进行解释。
为此必须对因子载荷矩阵进行旋转,使得因子载荷的平方按列向0和1两级转化,达到其简化结构的目的。
1.旋转后的因子载荷矩阵
由上图中可以看出,旋转后的因子载荷矩阵中,因子载荷的平方按列向0和1两级转化。
此外,在第一个公因子中,建筑业有较大的载荷;在第二个公因子中,金融业和其他服务业有较大的载荷;在第三个公因子中,人均生产总值有较大的载荷。
在这三个公因子中,载荷较大的变量都没有出现重复现象,由此我们便可得知,每一个变量仅在一个公因子上有较大载荷,而在其余公因子上的载荷比较小。
2.因子得分系数矩阵
根据上图因子得分系数矩阵,我们可以得到以下3个因子得分表达式:
F1=0.905X1+0.882X2+0.866X3+0.821X4+0.766X5+0.712X6+0.402X7+0.575X8+0.655X9+0.117X10
F1=0.299X1+0.273X2+0.457X3+0.53X4+0.591X5+0.563X6+0.729X7+0.719X8+0.684X9+0.21X10
F1=0.099X1+0.283X2+0.142X3+0.205X4+0.059X5+0.37X6+0.514X7+0.334X8+0.264X9+0.963X10
3.各样品因子得分(由于样品变量中包含地区生产总值,直辖市不便与其他省、自治区进行得分计算比较,故该处的样品因子得分不包含四个直辖市)
指标
第一个因子得分
第二个因子得分
第三个因子得分
总得分
省
1.65177
-1.51455
.16098
1.2622822
省
-.10390
-.50710
-.25100
-0.1521174
.48395
-1.46911
1.11478
0.2937651
省
.83538
-.77384
.58611
0.653846
省
-.34614
-.49511
.00214
-0.3509544
省
-.27347
-.14088
-.35162
-0.2616991
省
2.13226
1.13696
.77711
1.9812028
省
.28381
1.44940
.83793
0.4273605
省
.13361
-.20070
-.71401
0.0702004
省
.41511
-.63642
.52546
0.3053107
省
-.10754
-.25706
-.68578
-0.1423298
省
2.93598
-.50759
.30647
2.4798344
省
.83646
.42138
-1.11023
0.7288548
省
.35197
-.05203
-.38897
0.2844918
省
.42903
-.13197
-.54344
0.3371503
省
.93569
3.77149
-.35790
1.1996403
广西
-.21143
-.08906
-.73182
-0.2150402
省
-1.09198
-.14555
-.42610
-0.9684474
省
.29619
.47615
-1.04164
0.2723938
省
-.63627
.01915
-1.04080
-0.5786727
省
-.68563
.44028
-1.10798
-0.5778861
-1.21505
-.07382
-.82589
-1.0794515
省
.00769
-.48099
-.26580
-0.0538237
省
-.76606
-.08720
-.90433
-0.6973591
省
-1.13462
-.32689
-.32032
-1.0212478
-1.02026
-.46324
-.11122
-0.9308571
-.76052
-.26669
-.32461
-0.6932063
由以上各样品得分表可以看出,我国目前经济发展水平总体上尚属于待发展状态。
从各省份自治区经济发展水平总得分情况可以看出,目前经济发展水平处在我国发展前列的省份主要有:
省、省、省和省。
这些地区拥有得天独厚的地理环境优势,加上水陆交通网络完善,高校人才,地区经济得以高速发展。
而与之相对应的处在我国经济发展落后水平的省份自治区主要有:
自治区、省、省和回族自治区。
这些地区大多气候条件恶劣单一,深居陆或是与大陆隔离,对外交通单一,人才匮乏,缺乏对外沟通,人们思想落后,导致地区经济发展闭塞落后。
此外,我们还可以看出,我国北方和一些少数南方省份自治区如:
省、省、省、省、广西壮族自治区、省、省、省、省和维吾尔自治区由于资源短缺、地理位置偏远、气候差异大等原因,地区经济发展也处在较低水平。
四、结论
通过以上聚类分析、主成分分析和因子分析三种多元统计方法,对2011年我国31个省、市、自治区的影响地区经济发展水平的10项指标进行了深入分析,由此我们可以得出以下结论:
(1)我国自建国以来便出现了南北分化,东西部发展不均,地区经济发展存在严重的区域不平衡现象。
我国南方地理位置优越、资源丰富,尤其是东南沿海地区,不仅具有得天独厚的地理环境优势,最主要的是盘踞于我国与外界发达地区交通要塞,最大限度的阻断了先进技术和优秀人才流入地及北方大部分地区。
这些条件使得南方东南沿海地区经济发展锦上添花,工业和第三产业高速发展,进而促进地区生产总值快速增长,始终处在我国经济发展前列。
因此,在今后的经济发展中,国家应该将更多的目光投入到我国欠发达的西部和少数中部地区,加强对欠发达地区的财政支持和政策倾向程度,尽快通过提高中西部地区经济发展水平,缩小国地区差异,同时也能减少地区冲突,最终加快中国社会主义和谐社会的构建进程。
(2)通过以上分析,我们可以知道,与地区生产总值关系最密切的是工业的发展,其次是第三产业的发展。
了解了促使地区经济发展的主要因素,我们需大力发展地区工业和第三产业。
但不能只追求眼前的经济发展而牺牲未来的长远发展,应该在尊重自然发展的客观规律的基础上,大力发展本地区工业和第三产业的同时,加强对周边环境的保护,从而追求地区乃至整个国家长远的可持续发展。
附表一
指标
地区生产总值
工业
建筑业
交通运输、仓储和邮政业
批发和零售业
住宿和餐饮业
金融业
房地产业
其他服务业
人均生产总值
市
16251.93
3048.79
703.69
808.95
2139.65
348.42
2215.41
1074.93
5775.82
81658
市
11307.28
5430.84
497.48
632.10
1463.89
194.52
756.50
411.46
1760.77
85213
省
24515.76
11770.38
1356.48
2046.22
1780.63
338.91
746.01
918.02
2653.38
33969
省
11237.55
5959.96
675.30
756.29
846.65
261.33
519.32
224.91
1352.37
31357
14359.88
7101.60
936.09
1040.03
1216.60
381.64
447.46
384.76
1545.41
57974
省
22226.70
10696.54
1455.61
1143.17
1960.33
436.13
755.57
876.12
2987.66
50760
省
10568.83
4917.95
693.53
420.98
860.47
205.69
207.65
238.61
1746.51
38460
省
12582.00
5602.76
727.77
543.81
1060.26
275.80
350.82
465.61
1853.67
32819
市
19195.69
7208.59
719.30
868.31
3040.99
279.34
2277.40
1019.68
3657.14
82560
省
49110.27
22280.61
2922.67
2127.93
5341.39
919.13
2600.11
2747.89
7105.77
62290
省
32318.85
14683.03
1872.55
1206.95
3288.53
620.25
2730.29
1677.13
4657.08
59249
省
15300.65
7062.00
1247.38
589.82
1050.61
252.62
503.85
634.92
1944.15
25659
省
17560.18
7675.09
1394.11
963.85
1511.29
300.35
862.41
911.16
2329.68
47377
省
11702.82
5411.86
978.69
507.44
831.97
270.29
357.44
402.51
1551.55
26150
省
45361.85
21275.89
2741.22
2328.38
5400.19
881.58
1640.41
1838.14
5282.20
47335
省
26931.03
13949.32
1477.76
961.50
1586.09
797.99
868.20
987.00
2790.94
28661
省
19632.26
8538.04
1277.90
869.48
1512.89
446.52
674.57
634.67
3108.89
34197
省
19669.56
8122.75
1239.24
948.82
1662.34
406.87
501.09
518.04
3502.38
29880
省
53210.28
24649.60
1797.78
2090.36
5681.17
1192.28
2916.13
3321.31
8896.45
50807
广西
11720.87
4851.37
823.95
588.20
803.48
307.88
445.37
465.68
1387.72
25326
省
2522.66
475.04
239.46
119.74
258.06
89.75
105.24
208.71
367.43
28898
市
10011.37
4690.46
852.58
456.25
747.30
166.31
704.66
396.28
1153.01
34500
省
21026.68
9491.05
1538.08
638.76
1186.58
562.63
868.15
620.62
3137.30
26133
省
5701.84
1829.20
365.13
590.91
448.77
224.40
297.27
160.30
1059.64
16413
省
8893.12
2994.30
786.02
217.22
932.21
278.20
456.23
222.31
1595.62
19265
605.83
48.18
160.61
23.95
34.25
17.75
31.70
17.44
197.48
20077
省
12512.30
5857.92
1077.67
552.54
1036.35
266.92
432.11
398.03
1669.86
33464
省
5020.37
1923.95
453.88
280.33
351.97
123.61
145.05
134.25
928.57
19595
省
1670.44
811.73
163.45
67.53
93.70
18.93
62.56
29.05
268.41
29522
2102.21
816.79
239.36
174.10
109.99
37.15
134.18
79.01
327.49
33043
6610.05
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 毕业论文 优秀