主成分分析与因子分析的异同比较及应用.pdf
- 文档编号:14649482
- 上传时间:2023-06-25
- 格式:PDF
- 页数:4
- 大小:299.11KB
主成分分析与因子分析的异同比较及应用.pdf
《主成分分析与因子分析的异同比较及应用.pdf》由会员分享,可在线阅读,更多相关《主成分分析与因子分析的异同比较及应用.pdf(4页珍藏版)》请在冰点文库上搜索。
!
统计教育#$%年第&期主成分分析与因子分析的异同比较及应用!
王芳(南京经济学院经济与统计学院江苏南京#!
$%)收稿日期(#$%)$#)!
&作者简介(王芳*!
+,-).,女讲师,主要从事多元统计分析的教学与研究主成分分析是研究如何通过少数几个主成分来解释多变量的方差)协方差结构的分析方法,也就是求出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此不相关。
因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。
这两种方法是处理多变量、大样本时经常采用的方法,其二者的最终目的都是降维,而且在处理方法上,许多参考文献上都强调因子分析法是主成分方法的扩展,也就是因子分析的基础是主成分方法,所以对初学者来说,这两种方法在使用时很可能会用混本文将对两者的异同进行比较。
一、基本思想上的异同比较从二者表达的含义上看,主成分分析法和因子分析法都是寻求少数的几个变量(或因子)来综合反映全部变量(因子)的大部分信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的/&0以上,用这些新变量来分析经济问题,其可信度仍然很高,而且这些新的变量彼此间互不相关,消除了多重共线性。
对新变量的认识,不能错误简单地认为所寻求来的这几个少数变量(因子)是原始变量经过筛选后剩余的变量,我们要清楚地认识到,对通过主成分分析所得来的新变量是原始变量的线性组合,如原始变量为1!
1#22213经过坐标变换,将原有的3个相关变量14作线性变换,转换成另一组不相关的变量54我们可以得到一组表达式(5!
67!
1!
87!
#1#887!
3135#67#!
1!
87#1#887#31353673!
1!
873#1#8873313每个主成分都是由原有3个变量线性组合得到矩阵9满足9:
96!
的条件,在诸多主成分54中,5!
在总方差中占的比重最大,说明它综合原有变量1!
1#22213的能力最强,其余主成分5#5%,22253在总方差中占的比重依次递减,说明越往后的主成分综合原信息的能力越弱。
以后的分析可以用前面几个方差最大的主成分5来进行,一般情况下,要求前几个54*4;3.所包含的信息不少于原始信息的/&0,这样既减少了变量的数目,又能够用较少的主成分反映原有变量的绝大部分信息。
如利用主成分来消除多元回归方程的多重共线性,利用主成分来筛选多元线性回归方程中的变量等。
通过因子分析得来的新变量是对每一个原始变摘要(主成分分析法和因子分析法都是从变量的方差)协方差结构入手,在尽可能多地保留原始信息的基础上,用少数新变量来解释原始变量的多元统计分析方法。
教学实践中发现学生运用主成分分析法和因子分析法处理降维问题的认识不够清楚,本文针对性地从主成分分析法、因子分析法的基本思想、使用方法及统计量的分析等多角度进行比较,并辅以实例。
关键词(主成分分析因子分析比较文章编号:
!
$&)&,-#(#$%)$&)$!
)$总第!
期#!
量进行内部剖析,打比喻来说,原始变量就如成千上万的糕点,每一种糕点的原料都有面粉、油、糖及相应的不同原料,这其中,面粉、油、糖是所有糕点的共同材料,正如因子分析中的新变量即因子变量$正确选择因子变量后,如果想考虑成千上万糕点的物价变动,只需重点考虑面粉、油、糖等公共因子的物价变动即可。
所以因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。
即因子分析就是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它把原始变量分解为两部分因素,一部分是由所有变量共同具有的少数几个公共因子构成的,另一部分是每个原始变量独自具有的因素,即特殊因子。
对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行下一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。
二、数据标准化的异同比较主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为%方差为#的无量纲数据。
而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化。
不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化。
三、&()*+过程的异同比较主成分分析与因子分析都可利用,-,中的&()*+过程来实现,在&()*+中如果全部采用默认状态(或仅改变提取公因子个数一项),则进行的是主成分分析,在使用此过程时应注意以下几点:
(#)指标的选定。
指标最好有同趋势化,一般为了评价分析的方便,需要将逆指标转化为正指标,转化的方式为用逆指标的倒数值代替原指标。
(.)因子变量个数的确定。
利用&()*+实现主成分分析时,在确定公共因子个数(/01234567&89:
645)时,一般直接选择与原变量数目相等的个数,这样可以避免由于采用默认形式后累计方差贡献率达不到;!
:
489:
?
6*13:
A6B),除了主成分分析法之外,还有不加权最小二乘法、普通最小二乘法、最大似然估计法、主因子法、!
因子分析法、映象因子分析法。
这七种方法中只有用主成分分析法求解因子载荷时可以选择与变量个数相等的因子变量个数(/01234567789:
645),其它方法都必须因子变量个数小于原始变量个数。
而且在计算的过程中不能像主成分分析法那样一次计算因子载荷成功,如主因子法,往往需要经过多次尝试,才能得到因子载荷矩阵。
(C)模型的生成。
经过&()*+过程都产生因子载荷阵,但主成分分析模型需要的不是因子载荷量而是特征向量,所以还需将因子载荷量输入数据编辑窗口,利用“主成分相应特征根的平方根与特征向量乘积为因子载荷量”的性质用)+/,&*+D*(*D-E)=来计算特征向量,从而才能得到主成分的线性表达式。
而因子分析直接采用因子载荷量即可得到因子模型。
(F)计算得分的方法。
主成分得分是根据表达式将标准化后的相应数据代入得到的,因子得分的计算在,-,中提供了三种方法:
一是回归法,先对公共因子7与变量#$.$GGG$H作回归,建立回归方程,而后将变量数值代入回归方程,求得因子得分;二是巴特莱特法,由于因子模型1I&J3中,3为特殊因子,这部分极难观测,但可通过3的协方差矩阵转化为单位矩阵,从而求得因子得分&;三是安德森K鲁宾法,这种方法是为了保证因子的正交性而对巴特莱特因子得分的调整,其因子得分的均值为%方差为#。
在,-,的&()*+过程中,因子分析只需简单地选择对话框中“,(*+=”进行操作,而主成分分析中计算得分需在“:
4857641*961H0:
3L输入主成分的表达式。
两种得分应用的方向也不太一致,主成分得分一般用来对研究现象进行综合评价、排序及筛选变量,而因子得分多用于对样本及变量的分类,也可用于综合评价。
(!
)有关统计量的取得。
有关因子载荷的一些统计量在,-,输出窗口可直接得到,如变量与公共因子的相关系数,实际上为所求得的因子载荷量,变量共同度(反映每个变量对所提取的公共因子的依赖程度的统计量)可由输出窗口中的“961H63:
96110M?
:
NL中直接显示出来,实际此数值是因子载荷矩阵中每一行的因子载荷量的平方和,提取的因子个数不同,变量共同度也不同。
另外,公因子的方差(反映每个公共因子与所有变量的相关程度的统计量)可由=O:
489:
?
6,01567,P0843BQ68B?
R5直接读出。
实际此数值是因子载荷矩阵中每一列的因子载荷量的平方和。
我们求得的因子变量如果含义不明显,实用价值也不大,所以为了能更清楚地将因子与变量的关系显现,一般都采用因子旋转,因子旋转的方法,在,-,中常用的有方差最大正交旋转、四次最大旋转、平均正交旋转,尽量使经过旋转后的因子载荷量向%和#两极分化,旋转后变量共同度没有改变,但公共理论探讨!
统计教育#$%年第&期因子方差发生了变化。
四、实证分析下面以全国#$年城镇消费支出资料为例从降维的角度、(!
$)$操作的方法、输出的结果及分析来比较两种方法的异同(数据来源于#$!
年中国统计年鉴)。
指标解释:
*!
食品,*#衣着,*%家庭设备用品及服务,*+医疗保健,*&交通和通讯,*娱乐教育文化服务,*,居住,*-杂项商品和服务。
(一)主成分分析操作步骤如下:
!
、选择菜单中“./01234567489:
;48=0=;8=;98567489?
=;48)对*!
A*#A)A*-指标进行标准化处理,并标准化后的变量保存在数据编辑窗口;#、选择菜单中“./012345670=0:
47B9=;C/56D09=C:
A打开因子分析对话框,将标准化后的八个变量放入E0:
;0F148中;%、打开“G*=:
09=;C/对话框,选中/BHF4:
CDD09=C:
8,输入-,其它默认项不变,点击“确定”,则在输出窗口中自动生成结果;!
#$%&$($)*+,-.%$()+/;/;=;01G;I4/01B48G*=:
09=;C/BH8CDJB0:
47KC07;/I8LCH4NMC=01NCDE0:
;0/94LBHB10=;4N!
&)!
O+)$O+)$O&)!
O+)$O+)$O#!
)%O-!
)+,+-#)$-%!
)%O-!
)+,+-#)$-%)&!
)$!
+-O)$O,)&!
)$!
+-O)$O,+)%#+)$,O%)!
+)%#+)$,O%)!
+&)#,%)%+%O)&!
)#,%)%+%O)&!
)!
+O!
)-!
O-)%,)!
+O!
)-!
O-)%,)+-G5$#)O%OO)%!
%,)+-G5$#)O%OO)%!
%-&)+O&G5$#)-,!
$)$&)+O&G5$#)-,!
$)$01.)+)#2$#(-LCHC/4/=!
#%+&,-P*!
)O$&5)!
)!
-&5%)!
-+G5$#5)#+!
)#!
5+)%+!
G5$#)$+-G5$#P*#)%)-#+)%&)#+)!
+!
)-%+G5$#5%)-G5$%5!
)!
+G5$#P*%)-,)!
-)%+O)!
-#5)!
#,5)!
&O5)%G5$#)!
#P*+),&)+#-)#O#)#-+)#&)!
$-%)&,G5$#%)$#OG5$#P*&)-&,)%#+)#+)!
%!
)!
-)!
$)!
%5#)$-G5$#P*)O+)#!
G5$#5)#)&+G5$#5)!
#!
)$O&G5$#5#)%+%G5$%5)!
O#P*,)-$5)!
+5%)O!
G5$#)%$)#%)O&G5$#O)%OG5$#!
)O%G5$#P*-)O!
$5#)$,!
G5$#)#,#5)!
!
5)!
5)!
%)!
$!
)#&G5$#从输出窗口,我们可以取得每个主成分的方差,即特征根,它的大小表示了对应主成分能够描述原来所有信息的多少(更多情况下是由方差贡献率来反映)。
一般来讲,为了达到降维的目的,我们只提取前几个主成分,由于前三个主成分的累计方差贡献率已达到-ON以上,所以决定用三个新变量来代替原来的八个变量。
但这三个新变量的表达还不能从输出窗口中直接得到,因为“LCHC/4/=Q0=:
;*”是指因子载荷矩阵,每一载荷量表示主成分与对应变量的相关系数,从结果中可以看到第一个主成分与*!
A*%A*+A*&A*A*,A*-的相关性较强,第二个主成分与*#的相关性较强,而第三个主成分与每个变量的相关性都不太强。
为了得到三个主成分的表达式,以便求得分,还需进一步操作。
+、将前三个因子载荷矩阵输入到数据编辑窗口(为变量0!
A0#A0%),然后利用“M:
0/8DC:
H569CHB=4A在对话框中输入“R!
S.!
TUV(&)!
O)”,即可得到特征向量R!
。
同理,可得R#,R%。
于是,主成分表达式为:
3!
S$)%O-W3*!
X$)!
+W3*#X$)%-!
W3*%X$)%W3*+X$)%,W3*&X$)+!
&W3*X$)#OOW3*,X$)+W3*-3#S5$)$OOW3*!
X$)O,W3*#X$)!
&OW3*%X$)%#W3*+5$)#,+W3*&X$)$W3*5$)&!
OW3*,5$)$!
-W3*-3%S$)#+,W3*!
X$)+,+W3*#5$)+W3*%5$)%OW3*+X$)%W3*&5$)#OW3*5$)$W3*,X$)%W3*-第一主成分,除*#之外,其余变量的系数都在$)%5$)+附近,说明第一主成分是七个变量的综合,而第二主成分主要反映了衣着消费支出(*#)的信息,第三主成分反映的是家庭设备用品及服务(*%)A医疗服务(*+)的信息;&、排序。
先在“=:
0/8DC:
H569CHB=4中输入主成分的表达式,确定后即可得到各主成分的得分3!
A3#A3%,若需求综合得分,还需在“=:
0/8DC:
H569CH0:
;H0*;+、计算因子得分。
“D09=C:
5689C:
4中选:
4I:
488;C/Z通过上述!
5+步操作,可以从输出窗口取得变量共同度(表!
)、旋转前后的公因子方差(表#)、旋转前后的因子载总第!
期#$!
#$%&()%)*+$,-%.)/0&)-$%,!
#$)1).+)%,2(34%-.&+)%,2(!
#$%&(%&()*(+,(*-./0*12345*(6.(7863(39*60:
)*+,&-+;/*(6*?
6393(.(1(?
20*0(74613/(?
20*0/.1=.011*01*6?
9.1=37=*6=6(1A.?
6.343/*+*(?
-/*B?
.0*1=?
.00(.-/*B?
.03(1=.B0*0341/2*(+13A.(3,+=/*(43/91*3(CD(1=./61*6.341.6=*(+E1=.,1=3/43,(79(201,7.(1063,?
7(F17*01*(+,*0=1=.139.1=376?
./?
2E031=./639/.1=30.4/397*44./.(1./G0.61*-.0E.00.(1*?
*7.0E1=.234?
2*(+E011*01*6?
-/*B?
.0E.16CD(1=.?
01E1=.,1=3/?
201=.0.9.1=3701363(6/.1./39B?
.9C./0!
1,2*3/*(6*?
6393(.(1(?
20*0H4613/(?
20*0H639/*03(H?
*61*3(荷矩阵(表I)等。
表#41556&78+8/*(*1*?
8J1/61*3(K063/.%J#:
#CLLLCM$K063/.%JN:
#CLLLCO#$K063/.%JI:
#CLLLCOLOK063/.%JP:
#CLLLCMIOK063/.%J!
:
#CLLLCOLOK063/.%J:
#CLLLCOPPK063/.%J$:
#CLLLCMP#K063/.%JM:
#CLLLCOLN从表#可以得出:
提取的三个公共因子与娱乐教育文化服务支出(J)的依赖程度最强,为LCOPP,在其它变量中关系最弱的也有LCMIO,因此,总体来说公共因子与变量间的相关程度较强,即具有代表性。
表N91+&7:
&,8&-/;3(.(1V31?
W34-/*(6.U,9,?
1*-.WV31?
W34X/*(6.U,9,?
1*-.W#!
C#OPCLOPCLOICI#P#CPPPP#CPPPN#CIOM#$CP$PMNCLMINC!
MPINCIL!
$IC$POI!
#$CL#PMOCLO$#CNNM#!
CIPMMOCLO$从表N可以得出:
旋转前第一个公共因子的方差贡献率为PCLOW,第二个为#$CP$PW,第三个为$CL#PW,旋转后方差贡献发生了变化,但三个公共因子的重要性地位并未发生变化,且总信息量也未发生改变。
表I1+&+/2415=1/+?
&+,83(.(1#NCIK063/.%J#:
CM#OCP#OC#PIK063/.%JN:
ICOL8YLNCN!
CONNK063/.%JI:
CIO!
CMIOC#MP8YLNK063/.%JP:
CNNMCMIPCILPK063/.%J!
:
CO#CNIOCMNO8YLIK063/.%J:
C!
$#C$MI$CLMO8YLNK063/.%J$:
C$ICN!
$YCPNNK063/.%JM:
CMNLCIOCN$#从表I可以得出:
旋转后因子间的差异更明显,第一因子主要用来解释J#EJ!
EJ$EJM,集中反映食品、交通通讯、居住及服务的信息,是生活必需公共因子。
第二因子主要用来解释JIEJPEJ,集中反映了家庭设备用品、医疗保健及娱乐教育文化方面的信息,是精神享受因素。
第三个公共因子则主要用来解释JN的信息,是气候因素。
通过“4613/YZ063/.计算出的因子得分将显示在数据编辑窗口中,若想对样本或变量进行聚类,我们可以直接对此三个公共因子进行操作,而无需再考虑原始变量。
主成分分析法与因子分析法本是两种多元统计分析方法,但由于两者都是从变量的方差Y协方差矩阵入手的,所以有着许多内在的联系。
而且这两种方法是处理数据的方法与工具,在应用时也不能一味依靠输出结果反映的信息,有必要与被研究的经济问题紧密结合起来共同考虑。
理论探讨
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 因子分析 异同 比较 应用