主成分分析方法在主成分分析方法中的应用.docx
- 文档编号:5992683
- 上传时间:2023-05-09
- 格式:DOCX
- 页数:27
- 大小:130.12KB
主成分分析方法在主成分分析方法中的应用.docx
《主成分分析方法在主成分分析方法中的应用.docx》由会员分享,可在线阅读,更多相关《主成分分析方法在主成分分析方法中的应用.docx(27页珍藏版)》请在冰点文库上搜索。
主成分分析方法在主成分分析方法中的应用
主成分分析与因子分析及SPSS实现(-):
原理与方法
(2014-09-0813:
33:
57)
一、主成分分析
(1)问题提出
在问题研究中,为了不遗漏和准确起见,往往会面而俱到,取得大量的指标来进行分析。
比如为了研究某种疾病的彩响因素,我们可能会收集患者的人口学资料、病史、体征、化验检查等等数十项指标.如果将这些指标直接纳入多元统计分析,不仅会便模型变得复杂不稳定,而且还有可能因为变量之间的多重共践性引起较大的误差.有没有一种办法能对信息进行浓缩,减少变量的个数,同时消除多重共践性?
这肘,主咸分分析隆重登场。
(2)主成分分析的原理
主成分分析的本质是坐标的族转变换,将凍始的n个变量进行重新的线性组合,生成n个新的变量,他们之间互不相关,称为n个“成分”。
同时按照方差最大牝的原则,保证第一个成分的方差最大,然后依次递减。
这n个成分長按照方差从大到小排列的,其中前m个成分可能就包含了原始变量的大部分方差(及变异信息)。
那么这m个咸分就成为原始变苣的“主成分”,他们包含了原始变It的大部分信息。
注意得到的主成分不是原始变量筛选后的剩余变量,而是原始变量经过重新组合后的“综合变量”。
我们以最简单的二维数据来直观的解释主成分分析的原理。
假设现在有两个变itXI、X2,在坐标上画出散点图如下:
x2
XI与x2相关
可见,他们之间存在相关关系,如果我们将坐标轴整体逆时针敲转45°,变成新的坐标系Yl、Y2,如下图:
Y1与Y2不相关
根据坐标变化的原理.我们可以算出:
Y1=sqrt
(2)/2*XI+sqrt
(2)/2♦X2
Y2=sqrt
(2)/2♦XI-sqrt
(2)/2♦X2
其中sqrt(x)为x的平方根。
通过对XI、X2的重新进行践性组合,得到了两个新的变itYl、Y2。
此时,Yl、Y2变得不再相关,而且Y1方向变异(方差)较大,Y2方向的变异(方差)较小,这时我们可
以提取Y1作为XI、X2的主咸分,參与后续的统计分析,因为它携帶了原始变量的大部分信息。
至此我们解决了两个问题:
降维和消除共线性。
对于二维以上的数据,就不能用上面的几何图形直观的表示了,只能通过矩阵变换求解,但是本质思想爰一样的。
2.因子分析
(一)原理和方法:
因子分析是主成分分析的扩展。
在主咸分分析过程中,新变量是原始变量的线性组合,即将多个原始变量经过线性(坐标)变换得到新的变量。
因子分析中,長对原始变量间的在相关结构进行分组,相关性强的分在一组,组间相关性较弱,这样各组变量代表一个基本要素(公共因子)・通过原始变董之间的复杂关系对原始变量进行分解,徉到公共因子和特殊因子。
将原始变量表示成公共因子的线性组合。
其中公共因子是所有原始变量中所共同具有的特征,而轄殊因子则是原始变量所轄有的部分.因子分析强调对新变it(因子)的实际意义的
举个例子:
比如在市场调査中我们收集了食品的五项指标(xl-x5):
味道、价格、风味、長否快餐、能量,经过因子分析,我们发现了;
xl=0.02♦zl+0.99♦z2+el
x2=0.94*zl-0.01*z2+e2
x3=0・13車zl+0.98*z2+e3
x4=0.84♦zl+0.42♦z2+e4
x5=0.97♦zl-0.02♦z2+el
(以上的数字代表实际为变量间的相关系数,值越大,相关性趁大)
第一个公因子Z1主要与价格、咼否快餐、能量有关,代表“价格与营养”
第二个公因子z2主要与味道、风味有关,代表“口味”
el-5是特殊因子,長公因子中无法解释的,在分析中一般略去.
同时,我们也可以将公因子zl.z2表示成原始变量的践性组合,用于后续分析。
(二)使用条件:
(1)样本量足够大。
通常要求祥本量是变量数目的5倍以上,且大于100例.
(2)原始变董之间具有相关性。
如果变量之间彼此独立,无法使用因子分析。
在SPSS中可用KM0检脸和Bartlett球形检验来判斷。
(3)生成的公因子要有实际的意义,必要时可通过因子旅转(坐标变化)来达到。
三、主成分分析和因子分析的联系与区别
联系^两者都是降维和信息浓缩的方法。
生成的新变量均代表了原始变量的大部分信息且互相独立,都可以用于后续的回归分析、判别分析、聚类分析等等。
区别:
(1)主成分分析是按照方差最大化的方法生咸的新变量,强调新变量贡献了多大比例的方差,不关心新变量是否有明确的实际意义.
(2)因子分析着重要求新变量具有实际的意义,能解释原妁变量间的在结构。
下一篇文章,将介绍主成分分析和因子分析的在SPSS中的实现。
主成分分析与因子分析及SPSS实现
(二):
实例讨论
(2014-09-1306:
34:
09)
标签^分类:
SPSS
SPSS
教育
统计
因子分析
SPSS没有提供单独的主成分分析方法,而是混在因子分析当中,下面通过一个例子来讨论主成分分析与因子分析的实現方法及相关问题。
一、问题提出
男子十项全能比赛包含100米跑、姚远、跳高、推杆琳、铅球、铁饼、标枪、400米跑、1500米抱、110米跨栏十个项目,总分为各个项目得分之和.为了分析十项全能主要考察哪些方面的能力,以便有针对性的进行训竦,研究者收集了134个顶圾运动员的十项全能成绩单,将通过因子分析来达到分析目的。
二、分析过程变畳视图:
名称
类型
宽度
小数
标签
1
百米跑
数值(N)
8
2
100来(秒)
2
跳远
数值(N)
8
2跳远(米)
3
数值(N)
8
2铅球(米)
4
跳高
数值(N)
8
2跳高(米)
5
四百米跑
数值(N)
8
2
400米渺)
6
1百1十米栏
数值(N)
8
2
110来栏(秒)
7
铁饼
数值(N)
8
2铁饼(米)
3
撑杆跳
数值(N)
8
2撑杆跳(来)
9
标枪
数值(N)
8
2标枪(米)
10
一千五百米跑
数值(N)
8
2
估00米(秒)
廿
总分
数值(N)
8
0
总分
数据视图(部分〉:
百来跑
铅球
四百采跑
一百一+米栏
1
11.25
7.43
15.48
227
4890
15.13
49.26
2
1087
745
1497
197
4771
1446
4436
3
11.18
7.44
14.20
1.97
4829
14.81
43.66
4
1062
738
1502
203
4906
1472
4480
6
11.02
7.43
12.92
1.97
47.44
14.40
41.20
6
10.83
7.72
13.58
2.12
4834
14.18
43.06
7
11.18
7.05
14.12
2.06
4934
14.39
41.68
―8__I
11.05
6.95
15.34
2.00
4821
14.36
41.32
-_L—
1115
712
1452
203
4915
1466
4236
―10_1
11.23
7.28
15.25
1.97
4860
14.76
48.02
■H_J
10.94
7.45
15.34
1.97
49.94
14.25
41.66
12
11.18
7.34
14.48
1.94
4902
15.11
42.76
11.02
7.29
12.92
2.06
4823
14.94
39.54
14
1099
737
1361
197
4783
1470
4388
15|
11.03
7.45
14.20
1.97
48.94
15.44
41.66
~~I
1109
708
1451
203
4989
1478
4320
17
11.46
6.75
16.07
2.00
51.28
16.06
60.66
菜单选择(分析->降维->因子分析):
分析®直销(吵图形(£)实用程序刨窗口辿)
报告
描述统计
表(T)
比较均值迦)卜
—般线性模型(§)►
广兴线性模型►
混合複型©)►
相奂(£)►
回归迟)►
对数线性穆型
(2)►
神经网络►
分类匡)►
度fi(S)>
非参数絵脸尅)b
预测①卜
百釆跑一百一十米栏
48.90
15.13
4771
14.46
48.29
14.81
49.06
14.72
47.44
1440
48.34
14.18
49.34
14.39
48.21
14.36
An4r
4ACC
品因子分析(£)•••
B对应分析9)...止|最优尺度©)••・■4^23K94
打开因子分析的主界面,将十项成绩选入”变量“框中(不要包含总分),如下:
点击”描述“按钮,打开对话框,选中”系数“和”KMO和Bartlett球形度检验S
□单变疑描述性包)
0原贻分析结果
(1)
系数£)!
□逆模型迥)
□显著性水平©)□再生(g)i.行列式(0反腆象
QKMOWBartlett的球形度检验(K)
[继续][取消1[帮助]
上图相关解释:
”系数“:
为变量之问的相关系数阵列,可以直观的分析相关性.
”KMO和Bartlett球形度检验“:
用于定量的检验变量之间是否具有相关性。
点击”继续“,回到主界面,点击”抽取打开对话框。
基于特征值%
”方法“主成分”输出“==>”未旗转的因子解“和”碎石图“•”抽取“二〉其余选择默认。
解欷
1因子抽取的方法:
选取默认的主成分法即可,其余方法的计算结果可能有所差异。
2输出:
”未茨转的因子解”极为主成分分析结果。
碎石图有助于我们判斷因子的重要性(详细介绍见后面)。
3抽取:
为抽取主成分(因子)的方法,一般是基于特征值大于1,默认即可。
点击”继续“,回到主界面,点击”确定进入分析。
输出的主要表格如下:
(1)相关性检验
因子分析要求变量之间有相关性,所以首先要进行相关性检验。
首先输出的是变量之间的相关系败矩阵:
10貲比阵
loo
松琲(米)
统商(粉
400:
®)
悄干劇和
1500•-((:
WO紿)
1.000
•・691
-.420
Y64
.6&8
.751
-.353
-.627
-.344
.25
•'
-.691
1.000
.391
471
-636
-.654
.375
.632
.446
-.35
19球(米)
-.420
.391
1000
321
-U2
-.489
.856
643
703
.20
昨(*)
•364
.471
.321
1.000
-.275
-.487
.376
.472
.338
・.13
相0砂)
.698
-.636
-.142
・275
1000
655
・154
-521
-.150
55
他鴉栏的)
.751
-.654
-.489
-487
.655
1000
U03
-.709
-.350
J5
-.353
.375
.856
.376
-.154
-.403
1.000
.620
.618
.28
-,«27
.652
.643
472
-521
-709
620
1000
557
柘枪(旳
.344
.446
.703
.338
-150
・_350
.618
.557
1.000
.04
1500it:
(b)
.254
-.356
.202
-.132
554
.155
・?
B8
-.070
.045
1.00
可以直观的看到,变量之问有相关性。
但需要检验.接着输出的是相关性检轻:
KMOf[|Bartlett的检脸
取样足够度的Kais日「・Meye卜Olkin吃/
.788
Bartlett心球形度检验近似卡方
211.586
df
45
Sig.
.000
上图有两个指标:
笫一个長KMO值,一般大于0・7就说明不了之问有相关性了。
笫二个是Bartlett球形度检验,P值<0.001o综合两个指标,说明变量之间存在相关性,可以进行因子分析。
否则,不能进行因子分析。
(2)提取主成分和公因子
接下来输出主成分结果:
昭:
帑的总方羌
成f分
初始特征值
提取平方和较人
合计
方差的%
累枳%
台计
方羌的%
•累枳贻
1
5.024
50.235
50.235
5.024
50.235
50.235
2
2.080
20.799
71.034
2.080
20.799
71.034
3
.735
7.355
78.389
4
.686
6.857
85.246
5
.376
3.763
89.009
6
.302
3.021
92.030
7
.286
2.855
94.885
8
.224
2.238
97.123
9
.205
2.047
99.170
10
.083
.830
100.000
提取方法:
主成份分析,
这就長主成分分析的结果,表中笫一列为10个成分;第二列为对应的”特征值“,表示所解释的方差的大小;笫三列为对应的成分所包含的方差占总方差的百分比;笫四列为累计的百分比.一般来说.选择”特征值“大于1的成分作为主成分,这也是SPSS默认的选择。
在本例中,成分1和2的特征值大于1,他们合计能解释71.034%的方差,还算不错。
所以我们可以提取1和2作为主成分,抓住了主要矛盾,其余成分包含的信息较少,故弃去。
下面,输出碎石图,如下:
碎石图
成分数
碎石图来源于地质学的概念。
在岩层斜坡下方往往有很多小的碎石,其地质学意义不大。
碎石图以特征值为纵轴,成分为横轴。
前面陡峭的部分特征值大,包含的信息多,后面平坦的部分特征值小,包含的佶息也小。
由图直观的看出,成分1和2包含了大部分信息,从3开始就进入平台了。
接下来,捨出提取的成分矩阵:
成份矩附
成份
1
2
20米(秒)
-.804
.294
跳远(米)
.810
-.285
铅球(米)
.726
.569
跳髙傣)
.600
-.011
400米(秒)
-.660
.616
门0米栏(秒)
-.837
.189
铁饼(米)
.687
.601
瘁杆跳咪)
.872
.089
様枪(米)
.657
.430
1500米(秒)
-.187
.787
提取方法:
主成
乱已提取了2个成份。
上表中的数值为公因子与原始炎量之间的相关系数,绝对值越大,说明关系越密切。
公因子1和9个运动项目都正相关(注意更步运动运动的计分方式,时间越短,分数朋高),看来只能称为“综合运动”因子了。
公因子2与铁饼、铅球正相关,与1500米施、400米跑负相关,这究竟代表什么意思呢?
看来只能成为“不知所云”因子了。
(三)因子旅转
前面提取的两个公因子一个是大而全的“媒合因子”.一个不知所云.徉到这样的结果,无疑長分析的失败。
不过,不要灰心,我们可以通过因子的茨转来荻得更好的解释。
在主界面中点击“茨转”按钮,打开对话框,“方法”二〉“最大方差法”,“输出”=>“茨转解”。
的因子分析:
旋转
「方法
◎无◎最犬四次方值法©)
@最大方差法电)©最犬平衡值法(E)
©直接Oblimin方法(0)OPromax(P)
Delta(D):
oKappa(K)4
「輸出
a旋转^(R>a|SSS(Lj
最犬收敛性送代次数凶:
[玉羨][取消]]帮助j
点击“继续”,回到主界面点击“确认”进行分析。
输出结果如下:
成
分
1
2
100米(秒)冼远(米)铅球咪)跳高(米)
400米(秒)110米栏(秒)铁饼(米)押杆跳(米)标枪(米)
1500米(秒)
・785-783-.134•442
.903
737-.084-.570-.179
.678
-.341
.352
.913
.406-.009-.440
.909
.666
.765
.441
提取方法:
主成份
旋转法:
具有Kaiser様淮化的正交旋转法。
日・*•!
3I迭代后收妇
这長选择后的成分矩阵。
经过放转,可以看出:
公因子1得分越高.所有的跑步和跨栏咸绩越差,而跳远、撑杆跳等需要助跑类项目的成绩也越差,所以公因子1代表的是奔跑能力的反向指标,可称为“奔龜能力”。
公因子2与铁饼和铅球的正相关性很高,与标枪、撑杆跳等需要上肢力量的项目也正相关,所以该因子可以成为“上肢力量”。
经过族转,可以看出公因子有了更合理的解释。
(四)结果的保存在最后,我们还要将公因子储存下来供后续使用。
点击“得分”按钮,打开对话框,选中“保存为变量”,方法采用默认的“回归”方法,同时选中“显示因子得分系数矩阵”•
因子分析:
因子得分
gj保存为变>(&)
访法
@回归(旦)
◎Bartlett(B)
©Anderson-Rubin(A)
♦••••••••••••・••••・••••••••••••・•••••••••••・•••••••••・••••••・•••
[雄簇][取湧H帮助]
SPSS会自动生成2个新变量,分别为公因子的取值,放在数据的最后。
同时会输出一个因子系数表格:
鹵分得分佥效矩阵
成分
1
2
M0米(秒)
-.160
.142
冼远(米)
.161
-.137
铅球(米)
.145
.273
跳高咪)
.119
-.005
400米(秒)
-.131
.296
110米栏(秒)
-.167
091
铁讲(米)
.137
.289
撑杆跳侏)
.174
.043
标枪(米)
.131
.207
1500米(秒)
-.037
.378
提取方法:
主成怡构成得分。
由上图,我们可以写出公因子的表达式(用Fl、F2代表两个公因子,Zl^ZlO分别代表原妁变*):
F1=
-0.16*Z1+O.161*Z2+0.145*Z3+0.199*Z4-0.131*Z5-0.167*Z6+0.137*Z7+0.174*Z8+0.131*Z9-O.037*Z10F2同理,略去。
注意,这里的变量zrzio,Fl、F2不再長原始变量,而是标准正态变换后的变量。
当前位置:
一起大数据>自学中心>软件>SPSS>正文
SPSS主成分分析与因子分析之比校及实证分析
•xsndle发布于2015-07-20
•分类:
SPSS/数据分析
•阅读(399)
・评论⑴
来自blog.csdn.net/ysuncn/article/details/1924502
一、问题的提出
在科学研究或日常生活中,常常需要判断某一事物在同类事物中的好坏、优劣程度及其发展规体等问鹰。
而影响事物的待征及其发展規律的因素(指标)是多方面的,因此,在对该亭物进行研究时,为了能更全面、准确地反映出它的特征及其发展规律,就不应仅从单个指标或单方面去评价它,而应考虑到与其有关的多方面的因素,即研究中需要引入更多的与该事物有关系的变畳,来对其进行综合分析和评价。
多变畳大样本资料无疑能给研究人员或决策者提供很多有价值的信息,但在分析处理多变量问题时,由于众变量之间往往存在一定的相关性,使得观测数据所反映的信息存在重叠现象。
因此为了尽董避免信息重叠和减轻工作量,人们就往往希望能找出少数几个互不相关的综合变it来尽可能地反映原来数据所含有的绝大部分信息。
而主成分分析和因子分析正是为解决此类问題而产生的多元统计分析方法。
近年来,这两种方法在社会经济问题研究中的应用越来越多,其应用囤也倉加广泛。
因子分析曼主成分分析的推广和发展,二者之间就势必有着许多共同之处,而SPSS软件不能直接进行主成分分析,致便一些应用者在使用SPSS进行这两种方法的分析时,常常会出现一些混淆性的错误,这难免会使人们对分析结果产生质履.因此,有必要在运用SPSS分析时,将这两种方法加以严格区分,并针对实际问題选择正确的方法。
二、主成分分析与因子分析的联系与区别
两种方法的出发点都是变董的相关系数矩阵,在损失较少信息的前提下,把多个变量(这些变量之间要求存在较强的相关性,以保证能从原始变量中提取主成分)综合成少数几个综合变量来研究总体各方面信息的多元统计方法,且这少数几个综合变量所代表的信息不能重叠,即变量间不相关.
主要区别:
1.主成分分析是通过变量变换把注意力集中在具有较大变差的那些主成分上,而舍弃那些变差小的主成分;因子分析是因子模型把注意力集中在少数不可观测的潜在变董(即公共因子)上,而舍弃特殊因子。
2.主成分分析長将主成分表示为原观测变量的线性组合,
即乳沖
H
(1)
主成分的个数i=原变量的个数P,其中j=l,2,…,p,用是相关矩阵的特征值所对应的特征向量矩阵中的元素,是原始变量的标准化数据,均值为0,方差为1。
其实质是P维空间的坐标变换,不改变原始数据的结构。
而因子分析则是对原观测变畳分解成公共因子和特殊因子两部分.因子模型如式
(2)•
H
(2)
其中i=l,2,…,p,m
是因子分析过程中的初始因子载荷矩阵中的元素,四是第j个公共因子,s是第i个原观测变量的轄殊因子。
且此处的X与四的均值都为0,方差都为1。
3.主成分的各系数用,長唯一确定的、正交的.不可以对系数矩阵进行任何的茨转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一的、可以进行放转的,且该矩阵表明了原变量和公共因子的相关程度.
4.主咸分分析,可以通过可观測的原变量X直接求得主成分Y,并具有可逆性:
因子分析中的载荷矩阵是不可逆的,只能通过可现测的原变量去估计不可观测的公共因子,的公共因子得分的估计值等于因子得
分系数矩阵与原观测变量标准化后的矩阵相乘的结果。
还有,主成分分析不可以像因子分析那样进行因子旅转处理。
5.综合排名。
主成分分析一般依据第一主成分的得分排名,若第一主成分不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 方法 中的 应用