数据分析方法与技术因子分析实验.docx
- 文档编号:11694054
- 上传时间:2023-06-02
- 格式:DOCX
- 页数:28
- 大小:585.89KB
数据分析方法与技术因子分析实验.docx
《数据分析方法与技术因子分析实验.docx》由会员分享,可在线阅读,更多相关《数据分析方法与技术因子分析实验.docx(28页珍藏版)》请在冰点文库上搜索。
数据分析方法与技术因子分析实验
电子科技大学政治与公共管理学院
本科教学实验报告
(实验)课程名称:
数据分析技术系列实验
电子科技大学教务处制表
电子科技大学
实验报告
学生姓名:
学号:
指导教师:
一、实验室名称:
电子政务可视化实验室
二、实验项目名称:
因子分析
三、实验原理
主成分分析:
由于多个变量之间都存在着相关性,故为了使复杂的问题更加清晰,因此就设计将原来的变量重新线性组合成若干个互不相关的综合指标来代替原来的变量,并尽可能提取原来变量的信息来解释原有变量的协方差结构,这就是主成分分析法(PrincipalComponentAnalysis)。
主成分分析的数学模型:
设有n个变量,每个样品有p个变量
对其作线性组合得到:
这里限制性要求:
第i主成分的贡献率为:
表明第i个主成分综合
的信息的能力
累计贡献率为:
表示前m个主成分包含了原变量所具有的信息量。
因子分析:
因子分析是多元统计分析中处理降维的一种统计方法,它主要将具有错综复杂关系的变量或者样品综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系。
其中X是可实测的p个指标所构成的p维随机向量;F是公共因子或潜因子,即前面所说的综合变量;称aij为因子载荷,是第i个变量在第j个公共因子上的负荷;矩阵A称为因子载荷矩阵;ε是X的特殊因子。
因子分析的几个重要概念:
1、因子载荷
实际上
,即第i个变量与第j个公共因子的相关系数,它的统计意义就是第i个变量在第j个公共因子上的负荷,反映了第i个变量在第j个公共因子上的相对重要性。
2、变量共同度Communalities
3、公共因子Fj的方差贡献
4、因子旋转
因子旋转的目的是为了使得因子载荷阵的结构简化,便于对公共因子进行解释。
这里所谓的结构简化是使每个变量仅在一个公共因子上有较大的载荷,而在其余公共因子上载荷比较小。
这种变换因子载荷阵的方法称为因子轴的旋转。
旋转的方法有很多种,如正交旋转,斜交旋轴等。
5、因子得分
因子分析的数学模型是将变量表示成公共因子的线性组合,而在实际应用中,往往需要用公共因子去代表原始变量,即将公共因子表示为变量的线性组合,即
上式是因子得分函数,用它来计算每个样品的公共因子得分。
估计因子得分有很多种方法,比如加权最小二乘法,回归法等。
四、实验目的
理解因子分析的基本原理,掌握在SPSS软件中因子分析的主要参数设置及其含义,掌握SPSS软件分析结果的含义及其分析。
五、实验内容及步骤
实验内容一:
以城市基础设施调查数据为基础,运用因子分析方法对数据进行分析。
(1)问题描述
对我国主要城市的市政基础设施情况进行因子分析。
(2)因子分析FactorAnalysis过程调用
(3)分析变量设置及参数选择
实验内容二:
以主要城市日照数调查数据为基础,运用因子分析方法对数据进行分析。
(1)问题描述
对主要城市日照数进行因子分析。
(2)因子分析FactorAnalysis过程调用
(3)分析变量设置及参数选择
六、实验器材(设备、元器件):
计算机、打印机、硒鼓、碳粉、纸张
七、实验数据及结果分析
实验一分析结果及讨论
分析结果如下列表示。
[DataSet1]C:
\Users\a\Desktop\罗应婷书配套光盘\配套数据文件\第12章\各地区城市市政设施.sav
CorrelationMatrix
年末实有道路长度(公里)
年末实有道路面积(万平方米)
城市桥梁(座)
Correlation
年末实有道路长度(公里)
1.000
.983
.783
年末实有道路面积(万平方米)
.983
1.000
.738
城市桥梁(座)
.783
.738
1.000
城市排水管道长度(公里)
.939
.940
.759
城市污水日处理能力(万立方米)
.896
.853
.873
城市路灯(盏)
.883
.867
.719
CorrelationMatrix
城市排水管道长度(公里)
城市污水日处理能力(万立方米)
城市路灯(盏)
Correlation
年末实有道路长度(公里)
.939
.896
.883
年末实有道路面积(万平方米)
.940
.853
.867
城市桥梁(座)
.759
.873
.719
城市排水管道长度(公里)
1.000
.845
.916
城市污水日处理能力(万立方米)
.845
1.000
.822
城市路灯(盏)
.916
.822
1.000
表1.1
从表1.1可以看出,各个变量之间都具有一定的相关关系而且有些相关系数还比较大,接近于1,所以本例很适合使用主成分分析。
KMOandBartlett'sTest
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.
.856
Bartlett'sTestofSphericity
Approx.Chi-Square
281.248
df
15
Sig.
.000
表1.2
KMO检验是为了看数据是否适合进行因子分析,从表1.2可以看出KMO的值为0.856,表示可以进行因子分析。
Bartlett检验是为了看数据是否来自于服从多元正态分布的总体,从表1.2可以看出,Sig.的值为0.000,说明数据来自正态分布总体,适合进一步分析。
Communalities
Initial
Extraction
年末实有道路长度(公里)
1.000
.954
年末实有道路面积(万平方米)
1.000
.919
城市桥梁(座)
1.000
.742
城市排水管道长度(公里)
1.000
.924
城市污水日处理能力(万立方米)
1.000
.882
城市路灯(盏)
1.000
.859
ExtractionMethod:
PrincipalComponentAnalysis.
表1.3
变量共同度表示的是各变量中所含原始信息能被提取的公因子所解释的程度。
从表1.3可以看出,大多变量共同度在85%以上,所以提取的这几个公因子对变量的解释能力很强。
TotalVarianceExplained
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
Total
%ofVariance
Cumulative%
Total
1
5.280
88.001
88.001
5.280
2
.390
6.503
94.504
3
.162
2.707
97.211
4
.104
1.738
98.950
5
.051
.849
99.799
6
.012
.201
100.000
TotalVarianceExplained
Component
ExtractionSumsofSquaredLoadings
%ofVariance
Cumulative%
1
88.001
88.001
2
3
4
5
6
表1.4
从表1.4可知,只有第一个的特征值大于1,所以只选择第一个成分,方差贡献率为88.001%,几乎涵盖了原变量的全部信息。
ExtractionMethod:
PrincipalComponentAnalysis.
表1.5
ComponentMatrixa
Component
1
年末实有道路长度(公里)
.977
年末实有道路面积(万平方米)
.959
城市桥梁(座)
.862
城市排水管道长度(公里)
.961
城市污水日处理能力(万立方米)
.939
城市路灯(盏)
.927
ExtractionMethod:
PrincipalComponentAnalysis.
a.1componentsextracted.
表1.6
从表1.6可以看出,因子在年末实有道路长度(公里)、年末实有道路面积(万平方米)、城市桥梁(座)、城市排水管道长度(公里)、城市污水日处理能力(万立方米)及城市路灯(盏)上有较大的负荷。
ComponentScoreCoefficientMatrix
Component
1
年末实有道路长度(公里)
.185
年末实有道路面积(万平方米)
.182
城市桥梁(座)
.163
城市排水管道长度(公里)
.182
城市污水日处理能力(万立方米)
.178
城市路灯(盏)
.176
ExtractionMethod:
PrincipalComponentAnalysis.
表1.7
从表1.7可以看出,公因子的表达式为
实验二结果及分析:
[DataSet1]C:
\Users\a\Desktop\罗应婷书配套光盘\配套数据文件\第12章\主要城市日照时数.sav
CorrelationMatrix
一月日照时数
二月日照时数
三月日照时数
四月日照时数
Correlation
一月日照时数
1.000
.897
.897
.714
二月日照时数
.897
1.000
.855
.756
三月日照时数
.897
.855
1.000
.860
四月日照时数
.714
.756
.860
1.000
五月日照时数
.742
.785
.799
.857
六月日照时数
.464
.410
.541
.588
七月日照时数
.027
.175
.150
.380
八月日照时数
.110
.033
.234
.282
九月日照时数
.487
.505
.579
.508
十月日照时数
.551
.569
.498
.397
十一月日照时数
.781
.827
.656
.515
十二月日照时数
.558
.445
.365
.139
CorrelationMatrix
五月日照时数
六月日照时数
七月日照时数
八月日照时数
Correlation
一月日照时数
.742
.464
.027
.110
二月日照时数
.785
.410
.175
.033
三月日照时数
.799
.541
.150
.234
四月日照时数
.857
.588
.380
.282
五月日照时数
1.000
.725
.335
.319
六月日照时数
.725
1.000
.367
.699
七月日照时数
.335
.367
1.000
.624
八月日照时数
.319
.699
.624
1.000
九月日照时数
.666
.777
.248
.561
十月日照时数
.574
.640
.386
.546
十一月日照时数
.645
.452
.190
.140
十二月日照时数
.286
.309
-.016
.218
CorrelationMatrix
九月日照时数
十月日照时数
十一月日照时数
十二月日照时数
Correlation
一月日照时数
.487
.551
.781
.558
二月日照时数
.505
.569
.827
.445
三月日照时数
.579
.498
.656
.365
四月日照时数
.508
.397
.515
.139
五月日照时数
.666
.574
.645
.286
六月日照时数
.777
.640
.452
.309
七月日照时数
.248
.386
.190
-.016
八月日照时数
.561
.546
.140
.218
九月日照时数
1.000
.798
.553
.445
十月日照时数
.798
1.000
.728
.606
十一月日照时数
.553
.728
1.000
.699
十二月日照时数
.445
.606
.699
1.000
表2.1
从表2.1可以看出,各个变量之间都具有一定的相关系数而且有的相关系数还比较大,接近于1,所以适合使用主成分分析。
KMOandBartlett'sTest
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.
.798
Bartlett'sTestofSphericity
Approx.Chi-Square
437.331
df
66
Sig.
.000
表2.2
KMO检验是为了看数据是否适合进行因子分析,从表2.2可以看出KMO的值为0.798,表示可以进行因子分析。
Bartlett检验是为了看数据是否来自于服从多元正态分布的总体,从表2.2可以看出,Sig.的值为0.000,说明数据来自正态分布总体,适合进一步分析。
Communalities
Initial
Extraction
一月日照时数
1.000
.915
二月日照时数
1.000
.918
三月日照时数
1.000
.896
四月日照时数
1.000
.933
五月日照时数
1.000
.882
六月日照时数
1.000
.778
七月日照时数
1.000
.617
八月日照时数
1.000
.874
九月日照时数
1.000
.754
十月日照时数
1.000
.863
十一月日照时数
1.000
.847
十二月日照时数
1.000
.854
ExtractionMethod:
PrincipalComponentAnalysis.
表2.3
变量共同度表示的是各变量中所含原始信息能被提取的公因子所解释的程度。
从表1.3可以看出,大多变量共同度在85%以上,只有三个在85%之下,所以提取的这几个公因子对变量的解释能力很强。
TotalVarianceExplained
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
Total
%ofVariance
Cumulative%
Total
1
6.845
57.041
57.041
6.845
2
1.962
16.347
73.388
1.962
3
1.324
11.034
84.421
1.324
4
.725
6.045
90.466
5
.394
3.283
93.749
6
.250
2.085
95.833
7
.171
1.423
97.256
8
.104
.870
98.126
9
.080
.670
98.796
10
.065
.539
99.335
11
.047
.395
99.731
12
.032
.269
100.000
TotalVarianceExplained
Component
ExtractionSumsofSquaredLoadings
RotationSumsofSquaredLoadings
%ofVariance
Cumulative%
Total
%ofVariance
Cumulative%
1
57.041
57.041
4.581
38.173
38.173
2
16.347
73.388
2.886
24.047
62.220
3
11.034
84.421
2.664
22.201
84.421
4
5
6
7
8
9
10
11
12
表2.4
从表2.4可以看出,只有前三个的特征值大于1,所以只选择前三个主成分。
第一个主成分的方差贡献率是57.041%,第二个主成分的方差贡献率是16.347%,第三个主成分的方差贡献率是11.034%,前三个主成分的方差所占所有成分的84.421%。
由此可见,选择前三个主要成分已足够代替原来的变量。
ExtractionMethod:
PrincipalComponentAnalysis.
表2.5
ComponentMatrixa
Component
1
2
3
一月日照时数
.852
-.435
-.015
二月日照时数
.854
-.419
-.115
三月日照时数
.869
-.275
-.257
四月日照时数
.805
-.079
-.528
五月日照时数
.888
-.033
-.303
六月日照时数
.764
.439
-.038
七月日照时数
.364
.644
-.265
八月日照时数
.465
.809
.066
九月日照时数
.794
.295
.192
十月日照时数
.800
.251
.400
十一月日照时数
.825
-.275
.300
十二月日照时数
.562
-.164
.715
ExtractionMethod:
PrincipalComponentAnalysis.
a.3componentsextracted.
表2.6
通过上面的矩阵就可以给出各变量的因子表达式,如下:
RotatedComponentMatrixa
Component
1
2
3
一月日照时数
.837
-.014
.463
二月日照时数
.882
.013
.375
三月日照时数
.901
.163
.241
四月日照时数
.903
.340
-.049
五月日照时数
.834
.392
.179
六月日照时数
.405
.730
.285
七月日照时数
.128
.763
-.134
八月日照时数
-.031
.917
.178
九月日照时数
.376
.588
.516
十月日照时数
.297
.528
.704
十一月日照时数
.592
.081
.700
十二月日照时数
.140
.018
.913
ExtractionMethod:
PrincipalComponentAnalysis.
RotationMethod:
VarimaxwithKaiserNormalization.
a.Rotationconvergedin4iterations.
表2.7
从表中可以看出,第一主因子主要由前5个变量决定,第二主因子主要由中间
4个变量决定,第三主因子主要由后3个变量决定。
表2.8
ComponentScoreCoefficientMatrix
Component
1
2
3
一月日照时数
.195
-.142
.081
二月日照时数
.229
-.126
.015
三月日照时数
.252
-.048
-.086
四月日照时数
.304
.060
-.280
五月日照时数
.218
.067
-.131
六月日照时数
.002
.252
.001
七月日照时数
-.002
.339
-.189
八月日照时数
-.151
.392
.022
九月日照时数
-.049
.169
.162
十月日照时数
-.117
.131
.301
十一月日照时数
.039
-.098
.273
十二月日照时数
-.169
-.100
.516
ExtractionMethod:
PrincipalComponentAnalysis.
RotationMethod:
VarimaxwithKaiserNormalization.
表2.9
表2.9给出了成分得分系数矩阵,据此可以直接写出各公因子的表达式,如下:
八、实验结论
SPSS在数据分析方面提供了强大的能力,可以快速地得到丰富的因子分析结果供数据分析人员选用,重点在于理解各输出参量的含义及其与数据分析对象属性之间的关系。
本实验的结果让我比较好地了解了基于本调查数据的因子分析。
九、总结及心得体会
利用软件来进行复杂的统计数据分析确实可以带来极大的便利,对于原理的学习、理解应用心,在掌握的程度上向擅长靠齐。
尤其是因子分析模型,应阅读相关书籍,加深理解。
最后得出的几个公因子可赋予一定的权重,可以对每个城市整体日照程度加以评价。
十、对本实验过程及方法、手段的改进建议
在实验前对总体要求及注意事项进行更多的复习,避免在实验时不必要的错误。
分析时可考虑选择其他方式进行旋转,分析二者有何不同。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 方法 技术 因子分析 实验