SPSS进行主成分分析.docx
- 文档编号:18541204
- 上传时间:2023-08-19
- 格式:DOCX
- 页数:24
- 大小:1,002.44KB
SPSS进行主成分分析.docx
《SPSS进行主成分分析.docx》由会员分享,可在线阅读,更多相关《SPSS进行主成分分析.docx(24页珍藏版)》请在冰点文库上搜索。
SPSS进行主成分分析
实验七、利用SPSS进行主成分分析
【例子】以全国31个省市的8项经济指标为例,进行主成分分析第一步:
录入或调入数据(图1)。
省份
国內生产|脣民辛肖夷
固定资产|职工工资
货物周转|泮费价格
繭品零售
工业产值
1
1394.09
2505.00
51301
S144.0Q
373.90
11730
112.60
343.43
2
920.11
272O.K)
34546
E501.00
342.90
11520
noeo
532.51
3
2849.52
1250.00
704S7
4339.00
2033.30
11520
115.S0
1234.35
4
1092.46
125000
29090
4721.00
717.30
11S.90
11560
697.25
5
B32.S6
1307.00
250.23
4134.00
7B170
117.60
116.60
419.39
6
辽宁
2793.37
2397DO
337.99
4911.00
137170
115.10
11400
1940.55
7
吉林
11^.20
1872.00
320.45
4430.00
49740
115.20
114.20
762.47
B
黒龙江
2014.53
2334.00
435.73
4145.00
624.00
115.10
114.30
124037
9
2462.57
5343.□□
995.48
S279.00
207.40
118.70
113.00
1642.95
10
5155.25
192600
1434.95
5943.00
1025.50
115.90
114.30
2026.64
11
3524.79
2249.□□
1006.39
B619.D0
75440
115.60
113.50
91E59
12
2003.58
1254.00
474.00
4E09.D0
908.30
114.SO
112.70
824.14
13
2160.52
23200D
56397
5357.00
G09.30
115.20
114.4Q
433.67
14
1205.11
1182.00
2E2.E4
4211.00
411.70
115.90
115.90
571.04
15
ili^-
6002.34
1527.00
122955
5145.00
11X.E0
117EO
11420
2207,59
16
河隔
300274
103J.UU
67035
4344.00
1574.40
11560
11490
1367.92
17
2391.42
1527.00
671.63
4665.00
S4S.00
120.00
llhoU
1220.72
18
湖南
219570
1406.00
422.61
4797.00
1011.B0
119.00
115.50
B43.83
19
rw
5381.72
2699.00
1639.33
6250.00
65E.90
114.00
111.60
139635
20
广西L
1606.15
1314.00
3S2.59
5105.□□
536.00
113.40
116.40
56497
21
3B4.17
1014.00
198.35
5340.00
232.10
113.50
111.30
64.33
22
3534.D0
■261.00
82254
4645.00
902.30
118.50
117.00
1431.81
23
630.07
94200
150.04
4475.DO
301.10
121.40
117.20
32472
24
1206.6S
126100
334.00
5149.00
310.40
121.30
119.1Q
716.55
25
55.96
T1D.DO
1787
7382.00
4.20
I17.3D
114.9Q
5.57
26
1000.03
120800
30027
439600
500.90
119.00
117.00
600.98
27
甘h
553.35
1007.00
114.E1
5493.00
507.00
119.B0
ne.50
466.79
2B
音矿
166.31
i446.nn
477G
6763.00
61.SO
118.00
11E30
105.90
29
169.76
1355.00
01sa
5073.00
121.30
11710
115.30
114.40
30
S34.57
14S9.D0
37SS5
534S.00
339.00
11970
116.70
426.76
图1原始数据(未经标准化)
第二步:
打开“因子分析”对话框。
沿着主菜单的“AnalyzefDataReductionfFactor"的路径(图2)打开因子分析选项框(图3)o
圍全国3。
亍省市区复济塩展的8项指标-SPSSDataEditor
FileEdit
ViewData
Transform
AndyzeGraphsUtiities
WindowHelp
g^IqISI囿1三
I“Is|
Reports►
DescriptiveStatistics►
6:
CompareMeans►
省份
国內生产
GeneralLinearModel►Carrelate►
Regression►
匚lassiF^►
£
职工工资
1
业京
1394.E
1
8144.00
2
夭津
920.1
6
6501.00
3
河北
2849.EI
DataReduction►1
Factor.,.I
4
山西:
1092.4
Scale►
5
832.E
NonparametricTests►
3
4134.00
6
辽宁
2793.3^
MultipleResponse►
9
4911^00]
图2打开因子分析对话框的路径
第三步:
选项设置。
首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3)。
在本例中,全部8个变量都要用上,故全部调入(图4)。
因无特殊需要,故不必理会“Value…"栏。
下面逐项设置。
2£|
1.设置Descriptives描述选项。
单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。
—Inverse
厂H^preduced
—Anti-image
-Statistics
fyUnivariatedescriptives
WInitialsoliution
CorrelationMatrix两Coefficients厂Significancelevels[/Determinant
厂KMOandBartlett'stestofsphericity
图5描述选项框
在Statistics统计栏中选中Univariatedescriptives复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initialsolution复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。
在CorrelationMatrix栏中,选中Coefficients复选项,则会给出原始变量的相关系数矩阵(分析时可参考);选中Determinant复选项,则会给出相关系数矩阵的行列式,如果希望在Excel中对某些计算过程进行了解,可选此项,否则用途不大。
其它复选项一般不用,但在特殊情况下可以用到(本例不选)。
设置完成以后,单击Continue按钮完成设置(图5)。
2.设置Extraction选项。
打开Extraction对话框(图6)。
因子提取方法主要有7种,在Method栏中可以看
到,系统默认的提取方法是主成分(PrincipalComponents),因此对此栏不作变动,
就是认可了主成分分析方法。
在Analyze栏中,选中Correlationmatrix复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中Covarianeematrix复选项,则因子分析基于数据的协方差矩阵进行分析。
对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。
在Display栏中,选中Unrotatedfactorsolution(非旋转因子解)复选项,则在分析结果中给出未经旋转的因子提取结果。
对于主成分分析而言,这一项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。
选中ScreePlot(“山麓”图),则在分析结果中给出特征根按大小分布的折线图(形
如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。
在Extract栏中,有两种方法可以决定提取主成分(因子)的数目。
一是根据特征根(Eigenvalues)的数值,系统默认的是’c=1。
我们知道,在主成分分析中,主成分得分的方差就是对应的特征根数值。
如果默认'c~1,则所有方差大于等于1的主成分
将被保留,其余舍弃。
如果觉得最后选取的主成分数量不足,可以将’值降低,例如
取’c=0.9;如果认为最后的提取的主成分数量偏多,则可以提高-c值,例如取
■c=1.1。
主成分数目是否合适,要在进行一轮分析以后才能肯定。
因此,特征根数值的设定,要在反复试验以后才能决定。
一般而言,在初次分析时,最好降低特征根的临
界值(如取,c=0.8),这样提取的主成分将会偏多,根据初次分析的结果,在第二轮分析过程中可以调整特征根的大小。
第二种方法是直接指定主成分的数目即因子数目,这要选中Numberoffactors复选
项。
主成分的数目选多少合适?
开始我们并不十分清楚。
因此,首次不妨将数值设大一些,但不能超过变量数目。
本例有8个变量,因此,最大的主成分提取数目为8,不得
超过此数。
在我们第一轮分析中,采用系统默认的方法提取主成分。
需要注意的是:
主成分计算是利用迭代(Iterations)方法,系统默认的迭代次数是25次。
但是,当数据量较大时,25次迭代是不够的,需要改为50次、100次乃至更多对于本例而言,变量较少,25次迭代足够,故无需改动。
设置完成以后,单击Continue按钮完成设置(图6)。
3.设置Scores设置
选中Saveasvariables栏,则分析结果中给出标准化的主成分得分(在数据表的后面)。
至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认的“回
PSaveasvariables
Method
■*RegressionrBartlett
厂Anderson-Rubin
臣Displayfactorscorecoefficientmatrix
图7因子得分对话框
选中Displayfactorscorecoefficientmatrix,则在分析结果中给出因子得分系数矩阵及其相关矩阵。
设置完成以后,单击Continue按钮完成设置(图7)。
4.其它。
对于主成分分析而言,旋转项(Rotation)可以不必设置;对于数据没有缺失的情
况下,Option项可以不必理会。
全部设置完成以后,点击OK确定,SPSS很快给出计算结果(图8)。
"73
FactorAnalysis
DescriptiveStaU$tfi££
Mean
std.Deviation
Anah^i^n
国匹主产
igsx.Dga
1474.30603
日口
民民消费
1745.933
051.64193
30
固敢产
511=5083
432,00548
30
职工工费
5457a633
1310.21805
30
货愉周转
666.KI0
agsegg
30
消楚价需
117.2967
2.02531
30
商品零售
114.9D67
1.09808
30
工业产值
862.9930
534.5672&
日口
CorrektionMatrix*
居民消费
固定宦产
职工工进
岳韧周转
消费倚格
商品零售
.业产恒
Correlator!
国內生产
1.000
.267
.951
.191
.617
-.273
-.264
J74
居民消费
&7
1.Q0D
„426
.71B
-451
-.235
-<999
.363
固定蚩产
・951
.426
1.D00
.^00
.431
-.280
-.35S
.792
职工I资
・191
.710
1.000
-.356
-.539
104
苗物周转
■C17
-.151
-431
-.356
1.000
-253
-699
消费价咯
^.273
.235
-.260
-.135
-.253
1.000
.763
商品零售
-.264
-.593
叫3S9
-.539
■血
1.000
-.192
工业产倍
.874
.363
792
.104
.659
-.125
-.192
1.000
a.Determinant■1.133E-CH
图8主成分分析的结果
第四步,结果解读。
在因子分析结果(Output)中,首先给出的DescriptiveStatistics,第一列Mean对应的变量的算术平均值,计算公式为
_1n
Xj二一'Xij
ni#
第二列Std.Deviation对应的是样本标准差,计算公式为
n
1珂十'区访)2]1/2
n-1曰
第三列AnalysisN对应是样本数目。
这一组数据在分析过程中可作参考。
DescriptiveStatistics
Mean
Std.Deviation
AnalysisN
国内生产
1921.093
1474.80603
30
居民消费
1745.933
861.64193
30
固定资产
511.5083
402.88548
30
职工工资
5457.633
1310.21805
30
货物周转
666.1400
459.96699
30
消费价格
117.2867
2.02531
30
商品零售
114.9067
1.89808
30
工业产值
862.9980
584.58726
30
接下来是CorrelationMatrix(相关系数矩阵),一般而言,相关系数高的变量,大
多会进入同一个主成分,但不尽然,除了相关系数外,决定变量在主成分中分布地位的因素还有数据的结构。
相关系数矩阵对主成分分析具有参考价值,毕竟主成分分析是从计算相关系数矩阵的特征根开始的。
相关系数阵下面的Determinant=1.133E-0.4是相关矩阵的行列式值,根据关系式de-R)=0可知,det(入)=det(R),从而Determinant=1.133E-0.4=入*於花犷疋忌*胪方。
这一点在后面将会得到验证。
CorrelationMatrixa
国内生产
居民消费
固定资产
职工工资
货物周转
消费价格
商品零售
工业产值
国内生产
1.000
.267
.951
.191
.617
-.273
-.264
.874
居民消费
.267
1.000
.426
.718
-.151
-.235
-.593
.363
固定资产
.951
.426
1.000
.400
.431
-.280
-.359
.792
职工工资
.191
.718
.400
1.000
-.356
-.135
-.539
.104
货物周转
.617
-.151
.431
-.356
1.000
-.253
.022
.659
消费价格
-.273
-.235
-.280
-.135
-.253
1.000
.763
-.125
商品零售
-.264
-.593
-.359
-.539
.022
.763
1.000
-.192
工业产值
.874
.363
.792
.104
.659
-.125
-.192
1.000
a.Determinant=1.133E-04
在Communalities中,给出了因子载荷阵的初始主成分方差(Initial)和提取主成分方差(Extraction),后面将会看到它们的含义。
Communalities
Initial
Extraction
国内生产
1.000
.945
居民消费
1.000
.800
固定资产
1.000
.902
职工工资
1.000
.875
货物周转
1.000
.857
消费价格
1.000
.957
商品零售
1.000
.929
工业产值
1.000
.903
ExtractionMethod:
PrincipalComponentAnalysis.
在TotalVarianceExplained(全部解释方差)表的InitialEigenvalues(初始特
征根)中,给出了按顺序排列的主成分得分的方差(Total),在数值上等于相关系数矩
阵的各个特征根人因此可以直接根据特征根计算每一个主成分的方差百分比(%of
Variance)。
由于全部特征根的总和等于变量数目,即有m=刀入=8,故第一个特征根的
方差百分比为入/m=3.755/8=46.939,第二个特征根的百分比为;2/m=2.197/8=27.459,,其余依此类推。
然后可以算出方差累计值(Cumulative%)。
在Extraction
SumsofSquaredLoadings,给出了从左边栏目中提取的三个主成分及有关参数,提取的原则是满足?
>1,这一点我们在图6所示的对话框中进行了限定。
TotalVarianeeExplained
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
Total
%of
Varianee
Cumulative
%
Total
%of
Varianee
Cumulative
%
1
3.755
46.939
46.939
3.755
46.939
46.939
2
2.197
27.459
74.398
2.197
27.459
74.398
3
1.215
15.186
89.584
1.215
15.186
89.584
4
.402
5.031
94.615
5
.213
2.660
97.275
6
.138
1.724
98.999
7
6.5E-02
.818
99.817
8
1.5E-02
.183
100.000
ExtractionMethod:
PrincipalComponentAnalysis.
ScreePlot
ComponentNumber
图8特征根数值衰减折线图(山麓图)
主成分的数目可以根据相关系数矩阵的特征根来判定,如前所说,相关系数矩阵的特
征根刚好等于主成分的方差,而方差是变量数据蕴涵信息的重要判据之一。
根据龍决定主
成分数目的准则有三:
i只取41的特征根对应的主成分
从TotalVarianeeExplained表中可见,第一、第二和第三个主成分对应的?
值都
大于1,这意味着这三个主成分得分的方差都大于1。
本例正是根据这条准则提取主成分
的。
ii累计百分比达到80%~85%以上的道对应的主成分
在TotalVarianceExplained表可以看出,前三个主成分对应的值累计百分比达
到89.584%,这暗示只要选取三个主成分,信息量就够了。
iii根据特征根变化的突变点决定主成分的数量
从特征根分布的折线图(ScreePlot)上可以看到,第4个M直是一个明显的折点,这暗示选取的主成分数目应有p<4(图8)。
那么,究竟是3个还是4个呢?
根据前面两条准则,选3个大致合适(但小有问题)。
在ComponentMatrix(成分矩阵)中,给出了主成分载荷矩阵,每一列载荷值都显示了各个变量与有关主成分的相关系数。
以第一列为例,0.885实际上是国内生产总值
(GDP)与第一个主成分的相关系数。
将标准化的GDP数据与第一主成分得分进行回归,决定系数R2=0.783(图9),容易算出R=0.885,这正是GDP在第一个主成分上的载荷。
ComponentMatrixa
Component
1
2
3
国内生产
.885
.384
.121
居民消费
.607
-.598
.271
固定资产
.912
.161
.212
职工工资
.466
-.722
.368
货物周转
.486
.738
-.275
消费价格
-.509
.252
.797
商品零售
-.620
.594
.438
工业产值
.823
.427
.211
ExtractionMethod:
PrincipalComponentAnalysis.
a.3componentsextracted.
下面将主成分载荷矩阵拷贝到Excel上面作进一步的处理:
计算
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 进行 成分 分析