多元统计分析论文doc.docx
- 文档编号:15757044
- 上传时间:2023-07-07
- 格式:DOCX
- 页数:25
- 大小:305.75KB
多元统计分析论文doc.docx
《多元统计分析论文doc.docx》由会员分享,可在线阅读,更多相关《多元统计分析论文doc.docx(25页珍藏版)》请在冰点文库上搜索。
多元统计分析论文doc
河北联合大学
多元统计课程论文
论文题目:
对中国各地区综合实力测评
学院:
理学院
专业:
统计学
班级:
统计1班
姓名:
侯雅琴
学号:
201010060109
指导教师:
高艳
摘要、关键字、引言1
1数据说明2
2因子分析2
3聚类分析7
4判别分析9
5结果分析12
6参考文献13
附表14
对中国各地区综合实力测评
【摘要】本文对中国各地区综合实力进行测评,以31个地区2010年的10项指标数据为样本,采用因子分析对描述各地区的实力的各项指标变量进行分析,以聚类分析和判别分析相结合对地区发展类型进行分析,再利用各指标变量间的相关性进行分析,得出相关结论以分析各地区的发展情况。
【关键词】各地区综合实力测评因子分析聚类分析判别分析
引言:
在这样一个信息时代,只有全面的可持续的发展才是衡量一个地区综合实力的指标,仅仅是经济发展情况不再能全面具体的体现一个地区的综合实力,经济发展水平、科技发展水平、能源储量和利用率、基础设施建设、文化发展水平等等,这些综合的因素才是体现一个地区真正的面貌,单纯的GDP指标并不能完全反映一个地区的经济发展水平,为了克服单纯GDP指标的缺陷,我们在GDP指标的基础上,综合考虑其他各方面的发展指数,本文就外商投资进出口总额、地区生产总值、地区运输路线总长度、医疗卫生室数量、创新产品项目数、创新经费、高校数目、等10个指标变量对31地区的综合实力进行测评,通过因子分析、聚类分析、等多元统计方法对各指标变量以及各地区进行统筹分析,以总结促进各地区和谐可持续发展的原因。
一、数据说明
对各地区进行综合测评的各指标变量:
原始数据来源:
《中国统计年鉴——2010》原始数据见附录表-1
二、因子分析:
1.考察原有指标变量是否适合因子分析(原有变量之间是否存在一定的线性关系):
借助变量的相关系数矩阵,KMO和巴特利特球度检验,进行分析。
表—2
相关矩阵
外商投资进出口总额
地区生产总值
运输路线长度
医疗卫生室数量
创新产品项目数
创新经费
高校数目
社会服务设施数
林地面积
农业用地面积
相关
外商投资进出口总额
1.000
.785
.040
-.003
.878
.865
.479
.612
-.214
-.239
地区生产总值
.785
1.000
.433
.462
.950
.936
.838
.846
-.156
-.278
运输路线长度
.040
.433
1.000
.760
.268
.231
.572
.395
.403
.206
医疗卫生室数量
-.003
.462
.760
1.000
.239
.195
.601
.318
.091
-.084
创新产品项目数
.878
.950
.268
.239
1.000
.977
.731
.854
-.265
-.329
创新经费
.865
.936
.231
.195
.977
1.000
.729
.841
-.297
-.330
高校数目
.479
.838
.572
.601
.731
.729
1.000
.705
-.151
-.398
社会服务设施数
.612
.846
.395
.318
.854
.841
.705
1.000
-.200
-.257
林地面积
-.214
-.156
.403
.091
-.265
-.297
-.151
-.200
1.000
.803
农业用地面积
-.239
-.278
.206
-.084
-.329
-.330
-.398
-.257
.803
1.000
由相关矩阵可以看出外商投资进出口总额与地区生产总值、创新产品项目数、创新经费、社会服务设施数的相关系数较高(相关系数值均大于0.5),五个变量间呈现较强的线性关系,农业用地面积和林地面积高度相关,医疗卫生室数量和运输路线长度也具有较高的相关性,都可从中提取公共因子,进行因子分析。
表—3
KMO和Bartlett的检验
取样足够度的Kaiser-Meyer-Olkin度量。
.748
Bartlett的球形度检验
近似卡方
391.067
df
45
Sig.
.000
根据KMO检验,KMO值(小于1)越大表示数据适合做因子分析,由表可知,KMO值为0.748,根据KMO度量标准可知原始变量适合进行因子分析,同时Bartlett泅渡检验统计的观测值为391.067,相应的p值为0,表明变量间存在较强的相关性,适合做因子分析。
2.提取因子:
根据原有变量的相关矩阵,采用主成分分析法提取因子,并选取特征值大于1的特征根。
表—4
解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
合计
方差的%
累积%
1
5.535
55.354
55.354
5.535
55.354
55.354
4.687
46.870
46.870
2
2.237
22.374
77.729
2.237
22.374
77.729
2.402
24.019
70.889
3
1.301
13.010
90.739
1.301
13.010
90.739
1.985
19.850
90.739
4
.320
3.204
93.943
5
.248
2.483
96.426
6
.158
1.582
98.008
7
.123
1.234
99.243
8
.044
.443
99.686
9
.018
.183
99.869
10
.013
.131
100.000
提取方法:
主成份分析。
由上表各因子的累积方差贡献率一列可以看出,前三个因子已经可以解释90.739%的信息量。
因此提取三个主成分已经可以抓住指标变量所表达的内容
表—5
成份矩阵a
成份
1
2
3
外商投资进出口总额
.785
-.259
.442
地区生产总值
.977
.089
.092
运输路线长度
.422
.826
-.208
医疗卫生室数量
.440
.625
-.550
创新产品项目数
.961
-.115
.218
创新经费
.949
-.152
.224
高校数目
.864
.214
-.274
社会服务设施数
.883
.041
.090
林地面积
-.282
.783
.459
农业用地面积
-.405
.627
.600
提取方法:
主成分分析法。
a.已提取了3个成份。
表—6
旋转成份矩阵a
成份
1
2
3
外商投资进出口总额
.924
-.142
-.063
地区生产总值
.901
.386
-.104
运输路线长度
.184
.870
.334
医疗卫生室数量
.076
.938
-.043
创新产品项目数
.966
.161
-.156
创新经费
.963
.126
-.175
高校数目
.626
.647
-.240
社会服务设施数
.821
.317
-.117
林地面积
-.150
.175
.922
农业用地面积
-.179
-.067
.938
提取方法:
主成分分析法。
旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在5次迭代后收敛。
从上表可知:
对因子进行旋转后每个变量仅在一个公共因子上有较大的载荷,效果更佳,所以有因子旋转的必要,从旋转成分矩阵可得,外商投资进出口总额、地区生产总值、创新产品项目数、创新经费、社会服务设施数在第一公共因子上有较大的载荷,可以归为一类:
科技增长型经济指标;运输路线总长度和医疗卫生室数量以及高校数目在第二公共因子上有较大的载荷,可以归为一类:
社会基础设施指标;同理,林地面积和农业用地面积归为:
土地资源指标。
图—1
图—1:
旋转后的因子(成分)载荷图,分别以第一主成分和第二主成分第三主成分为轴坐标,按表中数据作图得到主成分图。
从图中可以看出旋转后各成分的变量更集中了。
从图中也可以更具象的看出各指标变量间的关系。
表—7
成份得分系数矩阵
成份
1
2
3
外商投资进出口总额
.288
-.228
.117
地区生产总值
.183
.054
.035
运输路线长度
-.047
.385
.130
医疗卫生室数量
-.147
.478
-.112
创新产品项目数
.234
-.068
.038
创新经费
.236
-.084
.030
高校数目
.036
.253
-.113
社会服务设施数
.170
.034
.022
林地面积
.064
.020
.495
农业用地面积
.100
-.102
.525
提取方法:
主成分分析法。
旋转法:
具有Kaiser标准化的正交旋转法。
构成得分。
表—7为因子得分系数矩阵。
根据因子得分系数和原始变量的标准化值,可以计算每个观测量的各因子的得分数,并可以据此对观测量进行进一步的分析。
旋转后的因子表达式可以写成:
FACT:
三、聚类分析
表—8
部分相似矩阵(这是一个不相似矩阵)
分析:
此表是欧氏不相似性系数矩阵,在行列交叉点上是两个地区的10个变量的欧氏距离,体现的是不相似性,即数值越大,两个地区越不相似,由表可知:
广东、浙江、江苏、山东与其他各地区的不相似度较高,说明这四个地区的发展类型相似而与其他地区的发展差异性较大,说明这四个地区的可能属于同一类型。
图—2
RescaledDistanceClusterCombine
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
海南21-+-+
宁夏30-++-----+
北京1-+||
天津2-+-+|
上海9-++-+
黑龙江8-+-+||
云南25-+|||
贵州24-++-----+|
甘肃28-+-+|
吉林7-+||
重庆22-+||
辽宁6-+||
安徽12-+|+---------+
江西14-+-+||
陕西27-+||
山西4-+||
福建13-+||
广西20-+|+---------------------------+
西藏26-+|||
青海29-+---+|||
新疆31-++-----+||
内蒙古5-----+||
湖北17-+-+||
湖南18-++-----------------+|
河北3-+||
河南16-+-+|
四川23-+|
江苏10-+---+|
广东19-++-------------------------------------------+
浙江11---+-+
山东15---+
图—3
从树状图和冰柱图可以看出分为4类时,类间距离比较大,分类层次清晰,说明各类的特点比较突出,分类结果如下:
表—9
群集成员
案例
5群集
4群集
3群集
2群集
1:
北京
1
1
1
1
2:
天津
1
1
1
1
3:
河北
2
2
2
1
4:
山西
3
1
1
1
5:
内蒙古
4
3
1
1
6:
辽宁
3
1
1
1
7:
吉林
3
1
1
1
8:
黑龙江
3
1
1
1
9:
上海
1
1
1
1
10:
江苏
5
4
3
2
11:
浙江
5
4
3
2
12:
安徽
3
1
1
1
13:
福建
3
1
1
1
14:
江西
3
1
1
1
15:
山东
5
4
3
2
16:
河南
2
2
2
1
17:
湖北
2
2
2
1
18:
湖南
2
2
2
1
19:
广东
5
4
3
2
20:
广西
3
1
1
1
21:
海南
1
1
1
1
22:
重庆
3
1
1
1
23:
四川
2
2
2
1
24:
贵州
3
1
1
1
25:
云南
3
1
1
1
26:
西藏
4
3
1
1
27:
陕西
3
1
1
1
28:
甘肃
3
1
1
1
29:
青海
4
3
1
1
30:
宁夏
1
1
1
1
31:
新疆
4
3
1
1
第一类:
宁夏、甘肃、陕西、贵州、云南、广西、海南、重庆、安徽、江西、山西、北京、天津、福建、吉林、黑龙江、辽宁、上海、
第二类:
湖北、湖南、河南、河北、四川
第三类:
西藏、内蒙古、青海、新疆
第四类:
江苏广东浙江山东
四、判别分析
表—10
汇聚的组内矩阵
外商投资进出口总额
地区生产总值
运输路线长度
医疗卫生室数量
创新产品项目数
创新经费
高校数目
社会服务设施数
林地面积
农业用地面积
相关性
外商投资进出口总额
1.000
.590
-.205
-.215
.803
.702
.190
-.249
-.077
-.125
地区生产总值
.590
1.000
.158
.315
.794
.769
.754
-.045
.123
.058
运输路线长度
-.205
.158
1.000
.556
-.081
-.103
.376
.118
.610
.648
医疗卫生室数量
-.215
.315
.556
1.000
-.097
-.123
.305
-.109
.259
.274
创新产品项目数
.803
.794
-.081
-.097
1.000
.876
.540
-.050
-.119
-.128
创新经费
.702
.769
-.103
-.123
.876
1.000
.599
.037
-.212
-.210
高校数目
.190
.754
.376
.305
.540
.599
1.000
.351
.160
.119
社会服务设施数
-.249
-.045
.118
-.109
-.050
.037
.351
1.000
-.039
-.073
林地面积
-.077
.123
.610
.259
-.119
-.212
.160
-.039
1.000
.925
农业用地面积
-.125
.058
.648
.274
-.128
-.210
.119
-.073
.925
1.000
根据此表可以得出各指标变量之间的相关性:
外商投资进出口总额、地区生产总值、创新产品项目数、创新经费相关性较强,地区生产总值与高校数目相关性也很强,说明了科技创新对经济的强大推动力,运输路线总长度和医疗卫生室数量相关性较强,体现了社会基础设施建设各项目之间的关系,林地面积和农业用地面积相关性较强,高校数目和创新经费相关性很强,体现了高校对提升创新水平的作用,从中也可以看出经济建设和社会基础建设与农林地面积呈现一定的负相关,说明了地区的建设对农林地有一定的破坏性,总体上从此表大致了解到各指标标量之间发展促进和制约的关系。
表—11
典型判别式函数系数
函数
1
2
3
外商投资进出口总额
.000
.000
.000
地区生产总值
.000
.000
.000
运输路线长度
.000
.000
.000
医疗卫生室数量
.000
.000
.000
创新产品项目数
.000
.000
.000
创新经费
.000
.000
.000
高校数目
-.064
-.020
.024
社会服务设施数
.000
.000
.000
林地面积
.000
-.003
.000
农业用地面积
.000
.002
.000
(常量)
-2.792
-1.952
-2.368
非标准化系数
此表给出未标准化的典则判别函数的系数,从表中可以得出判别函数分别是:
根据典则判别式函数的系数可以计算出判别分数
表—12
分类函数系数
WardMethod
1
2
3
4
外商投资进出口总额
1.938E-7
1.609E-7
1.073E-6
-1.842E-6
地区生产总值
7.637E-5
.001
.002
.003
运输路线长度
8.978E-6
2.856E-5
-4.854E-5
6.974E-5
医疗卫生室数量
-1.062E-5
.000
.000
.000
创新产品项目数
.000
.001
-.003
.005
创新经费
-2.812E-6
-4.129E-6
-5.983E-6
1.348E-6
高校数目
.131
.009
.028
-.879
社会服务设施数
.000
.002
.002
.008
林地面积
-.002
-.006
-.034
-.004
农业用地面积
.002
.003
.027
.003
(常量)
-6.250
-23.582
-64.726
-129.191
Fisher的线性判别式函数
判别函数如下:
现在选择具有代表性的地区:
西藏、江苏,利用判别函数判别其分类,以验证聚类分析的结果的正确性
西藏:
>
>
>
所以西藏属于第三类
江苏:
>
>
>
所以江苏属于第四类
验证了聚类分析结果的正确性
五、结果分析
由因子分析结果我们可以知道科技创新指标变量和经济指标变量归为一类:
科技增长型经济指标,从新经济增长理论的视角将经济增长、科技创新整合为一个理论分析框架进行实证研究,结果表明:
区域经济非均衡增长在很大程度上依赖于科技进步、科技知识生产等情况。
凡是科技创新能力较强的省区,大多都是经济实力较强的省区,多是东部省区,如:
浙江省、广东省,与聚类分析结果的第四类结果相同;而科技创新能力较弱的省区,同时也是经济实力比较弱的省区,多属于西部省区。
因此,聚类结果中的第三类西藏实施西部大开发战略,其中一个重要方面就是实施西部科技创新战略,提高西部科技创新能力。
所以聚类分析结果与实际情况和相关政策很符合。
找到发展制约因素所在,我们就要对症下药,特别在科技发展日新月异、经济增长方式由粗放型向集约型转变的情况下,科技进步更成为经济增长的主要推动力和决定性制约因素。
所以更要加强中西部地区的科技创新能力,让科学技术成为第一生产力。
根据变量之间的相关性分析我们可以发现,变量的第二公共因子社会基础设施指标与经济指标变量之间也呈现较强的正相关性,说明一个地区的发展离不开完备的基础建设,只有“硬件”更完善才能更好的促进一个地区的全面发展。
而土地资源指标却与经济指标之间呈现不同程度的负相关性,说明了经济增长对资源的消耗表现,这是一种自然资源在经济发展过程中代价性损失的一种表现,因此经济的可持续发展和资源的可持续利用就显得十分重要,加强市场配置和宏观调控以协调两者的发展关系。
根据聚类分析,我们将31个地区分为四类发展类型:
第一类:
宁夏、甘肃、陕西、贵州、云南、广西、海南、重庆、安徽、江西、山西、北京、天津、福建、吉林、黑龙江、辽宁、上海,第二类:
湖北、湖南、河南、河北、四川,第三类:
西藏、内蒙古、青海、新疆,第四类:
江苏广东浙江山东,结合实际情况分类结果与各地区的真实发展水平和类型相一致,江苏、广东、浙江、山东等地区都为沿海开发城市,相对综合实力较强,而西藏、内蒙古、新疆等地区由于地理环境因素相对资源缺乏,社会基础设施建设等各方面发现相对滞后所以分为一类。
判别分析也验证了聚类分析结果的正确性。
本为对各地区的综合实力测评,主要依据对各指标标量的因子分析和相关性分析,了解各指标变量之间的内在联系,从中分析地区发展类型和制约因素所在,在结合实际地区情况和相关政策再根据聚类分析各地区做区域性的分析对比,总言之:
以科技促经济发展,而强大的经济实力作为完善社会基础设施建设的保障,完备的社会基础设施建设进一步促进当地的高校发展科技创新等,从具体各个因素体现一个地区的综合实力。
六、参考文献
〔1〕于秀林任雪松《多元统计分析》
〔2〕方开泰《实用多元统计分析》
〔3〕国家统计局《中国统计年鉴》中国统计出版社,2010
〔4〕洪名勇《我国知识经济度量指标体系构建的探讨》科学学与
科学技术管理
〔5〕MorrisL.Eaton(1983),MultivariateStatisticalAVactorSpaceApproach
〔6〕AlvinC.Rencher(1995),MethodsofMultivariateAnalysis
附表:
表—1:
地区
外商投资进出口总额
地区生产总值
运输路线长度
医疗卫生室数量
创新产品项目数
创新经费
高校数目
社会服务设施数
林地面积
农业用地面积
北京
2215220
14113.58
21114
2972
4848
1269210
87
4288
101.46
109.6
天津
2643785
9224.46
14832
1855
6181
1223778
55
1295
14.22
69.3
河北
921579
20394.26
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 论文 doc