SPSS进行主成分分析.docx
- 文档编号:16787939
- 上传时间:2023-07-17
- 格式:DOCX
- 页数:45
- 大小:563.22KB
SPSS进行主成分分析.docx
《SPSS进行主成分分析.docx》由会员分享,可在线阅读,更多相关《SPSS进行主成分分析.docx(45页珍藏版)》请在冰点文库上搜索。
SPSS进行主成分分析
实验七、利用SPSS进行主成分剖析
【例子】以全国31个省市的8项经济指标为例,进行主成分剖析。
第一步:
录入或调入数据(图1)。
图1原始数据(未经标准化)
第二步:
翻开“因子剖析”对话框。
沿着主菜单的“Analyze→DataReduction→Factor”的路径(图2)翻开因子
剖析选项框(图3)。
图2翻开因子剖析对话框的路径
图3因子剖析选项框
第三步:
选项设置。
第一,在源变量框中选中需要进行剖析的变量,点击右侧的箭头符号,将需要的变
量调入变量(Variables)栏中(图3)。
在本例中,所有8个变量都要用上,故所有调入(图4)。
因无特别需要,故不用理睬“Value”栏。
下边逐项设置。
图4将变量移到变量栏此后
⒈设置Descriptives描绘选项。
单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。
图
5
描绘选项框
在Statistics统计栏中选中Univariatedescriptives复选项,则输出结果中将
会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供查验参照);选中Initial
solution复选项,则会给出主成分载荷的公因子方差(这一栏数据剖析时实用)。
在CorrelationMatrix栏中,选中Coefficients复选项,则会给出原始变量的相
关系数矩阵(剖析时可参照);选中Determinant复选项,则会给出有关系数矩阵的队列式,假如希望在Excel中对某些计算过程进行认识,可选此项,不然用途不大。
其他
复选项一般不用,但在特别状况下能够用到(本例不选)。
设置达成此后,单击Continue按钮达成设置(图5)。
⒉设置Extraction选项。
翻开Extraction对话框(图6)。
因子提取方法主要有7种,在Method栏中能够看
到,系统默认的提取方法是主成分(PrincipalComponents),所以对此栏不作改动,
就是认同了主成分剖析方法。
在Analyze栏中,选中Correlationmatrix复选项,则因子剖析鉴于数据的有关
系数矩阵进行剖析;假如选中Covariancematrix复选项,则因子剖析鉴于数据的协方
差矩阵进行剖析。
关于主成分剖析而言,因为数据标准化了,这两个结果没有分别,因
此任选其一即可。
在Display栏中,选中Unrotatedfactorsolution(非旋转因子解)复选项,则
在剖析结果中给出未经旋转的因子提取结果。
关于主成分剖析而言,这一项选择与否都
同样;关于旋转因子剖析,选择此项,可将旋转前后的结果同时给出,以便对照。
选中ScreePlot(“山麓”图),则在剖析结果中给出特点根按大小散布的折线图(形
如山麓截面,故得名),以便我们直观地判断因子的提取数目能否正确。
在Extract栏中,有两种方法能够决定提取主成分(因子)的数目。
一是依据特点
根(Eigenvalues
)的数值,系统默认的是
c
1。
我们知道,在主成分剖析中,主成
分得分的方差就是对应的特点根数值。
假如默认
c
1,则所有方差大于等于
1的主成
分将被保存,其他舍弃。
假如感觉最后选用的主成分数目不足,能够将
c值降低,例
如取
c
0.9;假如以为最后的提取的主成分数目偏多,则能够提升
c值,比如取
c1.1。
主成分数目能否适合,要在进行一轮剖析此后才能一定。
所以,特点根数值的设定,要在频频试验此后才能决定。
一般而言,在首次剖析时,最好降低特点根的临界值(如取c0.8),这样提取的主成分将会偏多,依据首次剖析的结果,在第二轮剖析过程中能够调整特点根的大小。
第二种方法是直接指定主成分的数目即因子数目,这要选中Numberoffactors复
选项。
主成分的数目选多少适合开始我们其实不十分清楚。
所以,首次不如将数值设大一
些,但不可以超出变量数目。
本例有8个变量,所以,最大的主成分提取数目为8,不得
超出此数。
在我们第一轮剖析中,采纳系统默认的方法提取主成分。
图6提取对话框
需要注意的是:
主成分计算是利用迭代(
Iterations
)方法,系统默认的迭代次数
是25次。
可是,当数据量较大时,25次迭代是不够的,需要改为
多。
关于本例而言,变量较少,25次迭代足够,故无需改动。
设置达成此后,单击Continue按钮达成设置(图6)。
50次、100次以致更
⒊设置Scores设置。
选中Saveasvariables栏,则剖析结果中给出标准化的主成分得分(在数据表的
后边)。
至于方法复选项,对主成分剖析而言,三种方法没有分别,采纳系统默认的“回归”(Regression)法即可。
图7因子得分对话框
选中Displayfactorscorecoefficientmatrix
系数矩阵及其有关矩阵。
设置达成此后,单击Continue按钮达成设置(图
,则在剖析结果中给出因子得分
7)。
⒋其他。
关于主成分剖析而言,旋转项(Rotation)能够不用设置;关于数据没出缺失的状况下,Option项能够不用理睬。
所有设置达成此后,点击OK确立,SPSS很快给出计算结果(图8)。
图8主成分剖析的结果
第四步,结果解读。
在因子剖析结果(Output)中,第一给出的DescriptiveStatistics,第一列Mean对应的变量的算术均匀值,计算公式为
xj
1
n
n
xij
i1
第二列Std.Deviation对应的是样本标准差,计算公式为
1
n
j[
(xijxj)2]1/2
n1i1
第三列AnalysisN对应是样本数目。
这一组数据在剖析过程中可作参照。
DescriptiveStatistics
Mean
Std.Deviation
AnalysisN
国内生产
1921.093
1474.80603
30
居民花费
1745.933
861.64193
30
固定财产
511.5083
402.88548
30
员工薪资
5457.633
1310.21805
30
货物周转
666.1400
459.96699
30
花费价钱
117.2867
2.02531
30
商品零售
114.9067
1.89808
30
工业产值
862.9980
584.58726
30
接下来是CorrelationMatrix(有关系数矩阵),一般而言,有关系数高的变量,大
多会进入同一个主成分,但不尽然,除了有关系数外,决定变量在主成分中散布地位的
要素还有数据的构造。
有关系数矩阵对主成分剖析拥有参照价值,毕竟主成分剖析是从
计算有关系数矩阵的特点根开始的。
有关系数阵下边的Determinant=是有关矩阵的队列
式值,依据关系式det(I
R)
0可知,det(λI)=det(R),进而Determinant=。
这一点
在后边将会获得考证。
Correlat
ionMatrix
a
国内
居民
固定
员工
货物
花费
商品
工业
生产
花费
财产
薪资
周转
价钱
零售
产值
国内生产
1.000
.267
.951
.191
.617
-.273
-.264
.874
居民花费
.267
1.000
.426
.718
-.151
-.235
-.593
.363
固定财产
.951
.426
1.000
.400
.431
-.280
-.359
.792
员工薪资
.191
.718
.400
1.000
-.356
-.135
-.539
.104
货物周转
.617
-.151
.431
-.356
1.000
-.253
.022
.659
花费价钱
-.273
-.235
-.280
-.135
-.253
1.000
.763
-.125
商品零售
-.264
-.593
-.359
-.539
.022
.763
1.000
-.192
工业产值
.874
.363
.792
.104
.659
-.125
-.192
1.000
a.Determinant=1.133E-04
在Communalities中,给出了因子载荷阵的初始主成分方差(Initial
)和提取主成
分方差(Extraction),后边将会看到它们的含义。
Communalities
Initial
Extraction
国内生产
1.000
.945
居民花费
1.000
.800
固定财产
1.000
.902
员工薪资
1.000
.875
货物周转
1.000
.857
花费价钱
1.000
.957
商品零售
1.000
.929
工业产值
1.000
.903
ExtractionMethod:
PrincipalComponentAnalysis.
在TotalVarianceExplained(
所有解说方差)表的InitialEigenvalues
(初始特
征根)中,给出了按次序摆列的主成分得分的方差(Total),在数值上等于有关系数矩
阵的各个特点根λ,所以能够直接依据特点根计算每一个主成分的方差百分比(
%of
Variance)。
因为所有特点根的总和等于变量数目,即有
=∑
λ
i=8,故第一个特点根的
m
方差百分比为
λ
1/=8=,第二个特点根的百分比为
λ
2/
=8=,,其他依此类推。
然
m
m
后能够算出方差累计值(Cumulative%)。
在ExtractionSumsofSquaredLoadings
,
给出了从左侧栏目中提取的三个主成分及有关参数,提取的原则是知足λ>1,这一点我
们在图6所示的对话框中进行了限制。
TotalVarianceExplained
InitialEigenvalues
ExtractionSumsofSquaredLoadings
%of
Cumulative
%of
Cumulative
Component
Total
Variance
%
Total
Variance
%
1
3.755
46.939
46.939
3.755
46.939
46.939
2
2.197
27.459
74.398
2.197
27.459
74.398
3
1.215
15.186
89.584
1.215
15.186
89.584
4
.402
5.031
94.615
5
.213
2.660
97.275
6
.138
1.724
98.999
7
6.5E-02
.818
99.817
8
1.5E-02
.183
100.000
ExtractionMethod:
PrincipalCom
ponentAnalysis.
ScreePlot
e
ul
a
v
n
e
gi
E
4
3
2
1
0
12345678
ComponentNumber
图8特点根数值衰减折线图(山麓图)
主成分的数目能够依据有关系数矩阵的特点根来判断,如前所说,有关系数矩阵的特
征根恰好等于主成分的方差,而方差是变量数据蕴涵信息的重要判据之一。
依据λ值决定
主成分数目的准则有三:
i只取λ>1的特点根对应的主成分
从TotalVarianceExplained表中可见,第一、第二和第三个主成分对应的λ值都
大于1,这意味着这三个主成分得分的方差都大于1。
本例正是依据这条准则提取主成分
的。
ii累计百分比达到80%~85%以上的λ值对应的主成分
在TotalVarianceExplained表能够看出,前三个主成分对应的λ值累计百分比达
到%,这示意只需选用三个主成分,信息量就够了。
iii依据特点根变化的突变点决定主成分的数目
从特点根散布的折线图(ScreePlot)上能够看到,第4个λ值是一个明显的折点,
这示意选用的主成分数目应有p≤4(图8)。
那么,终究是3个仍是4个呢依据前方两条准则,选3个大概适合(但小有问题)。
在ComponentMatrix(成分矩阵)中,给出了主成分载荷矩阵,每一列载荷值都显
示了各个变量与有关主成分的有关系数。
以第一列为例,其实是国内生产总值(GDP)
与第一个主成分的有关系数。
将标准化的GDP数据与第一主成分得分进行回归,决定系
数R2=(图9),简单算出R=,这正是GDP在第一个主成分上的载荷。
ComponentMat
rixa
Component
1
2
3
国内生产
.885
.384
.121
居民花费
.607
-.598
.271
固定财产
.912
.161
.212
员工薪资
.466
-.722
.368
货物周转
.486
.738
-.275
花费价钱
-.509
.252
.797
商品零售
-.620
.594
.438
工业产值
.823
.427
.211
ExtractionMethod:
PrincipalComponentAnalysis.
a.3componentsextracted.
下边将主成分载荷矩阵拷贝到Excel上边作进一步的办理:
计算公因子方差和方差
贡献。
第一求行平方和,比如,第一行的平方和为
2
h1=++=
这是公因子方差。
而后求列平方和,比如,第一列的平方和为
2
s1=+++=
这即是方差贡献(图10)。
在Excel中有一个计算平方和的命令sumsq,能够方便地算出
一组数据的平方和。
明显,列平方和即方差贡献。
事实上,有以下关系建立:
有关系数矩阵的特点根=方差贡献=主成分得分的方差
至于行平方和,明显与前方Communalities表中的Extraction列对应的数据同样。
假如
我们将8个主成分所有提取,则主成分载荷的行平方和都等于
1(图11),即有hi=1,sj=λj。
到此能够理解:
在
Communalities
中,Initial
对应的是初始公因子方差,其实是所有
主成分的公因子方差;
Extraction
对应的是提取的主成分的公因子方差
,我们提取了
3
个主成分,故计算公因子方差时只考虑3个主成分。
5
y=0.0012x-2.2336
4
R2=0.783
3
值2
总
产1
生0
内
国-10100020003000400050006000
-2
-3
-4
第一主成分
图9国内生产总值(GDP)的与第一主成分的有关关系(标准化数据)
图10主成分方差与方差贡献
ComponentMatrix
a
Component
1
2
3
4
5
6
7
8
国内生产
.885
.384
.121
-.203-6.87E-02
1.143E-02
2.420E-02
9.192E-02
居民花费
.607
-.598
.271
.409
-7.61E-02
.157
5.525E-02
1.317E-02
固定财产
.912
.161
.212
-.270
-7.71E-02
8.271E-02
8.113E-02
-7.36E-02
员工薪资
.466
-.722
.368
-.164
.304
-1.64E-02
-7.62E-02
3.949E-03
货物周转
.486
.738
-.275
.212
.305
2.254E-02
6.855E-02
-6.02E-03
花费价钱
-.509
.252
.797
.072
2.716E-02
-.161
.107
2.435E-03
商品零售
-.620
.594
.438
-.027
3.531E-02
.247
-9.23E-02
1.634E-03
工业产值
.823
.427
.211
.209-9.38E-02
-.137
-.157
-2.30E-02
ExtractionMethod:
PrincipalCom
ponentAnalysis.
a.8componentsex
tracted.
图11所有主成分的公因子方差和方差贡献
提取主成分的原则上要求公因子方差的各个数值尽可能靠近,亦即要求它们的方差
极小,当公因子方差完整相等时,它们的方差为0,这就达到完满状态。
实质应用中,
只需公因子方差数值相互靠近(不相差太远)就行了。
从上边给出的结果能够看出:
提
取3个主成分的时候,居民花费的公因子方差偏小,这示意提取3个主成分,居民花费方面的信息可能有许多的损失。
至于方差贡献,反应对应主成分的重要程度,这一点从方
差的统计学意义能够获得理解。
在图11中,将最后一行的特点根所有乘到一同,得,这正是有关系数矩阵的队列式
数值(在
Excel中,求一组数据的乘积之和的命令是
product
)。
最后说明
ComponentScoreCoefficient
Matrix
(成分得分系数矩阵)和
Component
ScoreCovarianceMatrix(成分得分协方差矩阵),前者是主成分得分系数,后者是
主成分得分的协方差即有关系数。
从ComponentScoreCovarianceMatrix能够看出,
标准化主成分得分之间的协方差即有关系数为0(j≠k)或1(j=k),这意味着主成分
之间相互正交即垂直。
初学者常将ComponentScoreCoefficientMatrix表中的数据当作主成分得分或因
子得分,这是误解。
成分得分系数矩阵的数值是主成分载荷除以相应的特点根获得的结
果。
在ComponentMatrix表中,将第一列数据分别除以λ1=,第二列数值分别除以λ2=,,立刻获得ComponentScoreCoefficient;反过来,假如将ComponentScoreCoefficientMatrix表中的各列数据分别乘以λ1=,λ2=,,则可将其复原为主成分载荷即ComponentMatrix中的数据。
ComponentScoreCoefficientMatrix
Component
1
2
3
国内生产
.236
.175
.100
居民花费
.162
-.272
.223
固定财产
.243
.073
.174
员工薪资
.124
-.329
.303
货物周转
.129
.336
-.227
花费价钱
-.135
.115
.656
商品零售
-.165
.271
.360
工业产值
.219
.194
.174
ExtractionMethod:
PrincipalComponentAnalysis.
ComponentScores.
ComponentScoreCovarianceMatrix
Component
1
2
3
1
1.000
.000
.000
2
.000
1.000
.000
3
.000
.000
1.000
ExtractionMethod:
PrincipalCom
ponentAnalysis.
ComponentScores.
实质上,主成分得分在原始数据所在的SPSS目前数据栏中给出,可是给出的都是标
准化的主成分得分(图12a);将各个主成分乘以相应的√λ即特点根的二次方根能够将
其复原为未经标准化的主成分得分。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 进行 成分 分析