因子分析.pdf
- 文档编号:3431183
- 上传时间:2023-05-05
- 格式:PDF
- 页数:82
- 大小:604.01KB
因子分析.pdf
《因子分析.pdf》由会员分享,可在线阅读,更多相关《因子分析.pdf(82页珍藏版)》请在冰点文库上搜索。
1因子分析21引言因子分析(factoranalysis)是一种数据简化的技术。
它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。
这几个假想变量能够反映原来众多变量的主要信息。
原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。
例如,在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。
3但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。
因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。
而这三个公共因子可以表示为:
xi=i+i1F1+i2F2+i3F3+ii=1,24称是不可观测的潜在因子。
24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分,称为特殊因子。
F1、F2、F3i4注:
因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义;主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。
主成分分析:
原始变量的线性组合表示新的综合变量,即主成分;因子分析:
潜在的假想变量和随机影响变量的线性组合表示原始变量。
52因子分析模型一、数学模型设个变量,如果表示为Xi(i=1,2,p)p11iiiimmiXaFaFL(mp)11111211122212222212mmpppppmpmXFXFXFLLMMMMMMML或XAF或6称为公共因子,是不可观测的变量,他们的系数称为因子载荷。
是特殊因子,是不能被前m个公共因子包含的部分。
并且满足:
F1,F2,FmiD(F)=111=Icov(,)0,FF,即不相关;F1,F2,Fm即互不相关,方差为1。
7D()=1222p2即互不相关,方差不一定相等,。
iN(0,i2)8用矩阵的表达方式X-=AF+()EF0()E0()VarFI22212()(,)pVardiagL111212122212()()()()()()cov()()()()()ppppppEFEFEFEFEFEFEEFEFEFF,F0LLMMML9二、因子分析模型的性质1、原始变量X的协方差矩阵的分解X-=AF+Q()()()VarVarVarX-=AFA+x=AA+DA是因子模型的系数22212()(,)pVardiagDLD的主对角线上的元素值越小,则公共因子共享的成分越多。
102、模型不受计量单位的影响将原始变量X做变换X*=CX,这里Cdiag(c1,c2,cn),ci0。
)C(X-)=C(AF+CXC+CAF+C*XC+CAF+C*X+AF+*FF11*()EF0*()E0*()VarFI*22212()(,)pVardiagL*cov()()EF,F0123、因子载荷不是惟一的设T为一个pp的正交矩阵,令A*=AT,F*=TF,则模型可以表示为*X+AF+()ETF0()E0*()()()VarVarVarFTFTFTI22212()(,)pVardiagL*cov()()EF,F0且满足条件因子模型的条件13三、因子载荷矩阵中的几个统计特征1、因子载荷aij的统计意义因子载荷是第i个变量与第j个公共因子的相关系数aij模型为Xi=ai1F1+aimFm+i在上式的左右两边乘以Fj,再求数学期望E(XiFj)=ai1E(F1Fj)+ijE(FjFj)+aimE(FmFj)+E(iFj)根据公共因子的模型性质,有xiFj=ij(载荷矩阵中第i行,第j列的元素)反映了第i个变量与第j个公共因子的相关重要性。
绝对值越大,相关的密切程度越高。
142、变量共同度的统计意义定义:
变量的共同度是因子载荷矩阵的第i行的元素的平方和。
记为Xi统计意义:
Xi=ai1F1+aimFm+i两边求方差Var(Xi)=a2i1Var(F1)+a2imVar(Fm)+Var(i)1=j=1maij2+i2所有的公共因子和特殊因子对变量的贡献为1。
如果非常靠近1,非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。
Xij=1maij2i2j=1maij2hi2=j=1maij2。
153、公共因子方差贡献的统计意义jF因子载荷矩阵中各列元素的平方和称为第j个公共因子对所有分量的方差贡献和。
衡量的相对重要性。
qj2=i=1paij2(i=1,p)FjXiFj163因子载荷矩阵的估计方法设随机向量的均值为,协方差为,为的特征根,为对应的标准化特征向量,则x=(x1,x2,xp)12p0u1,u2,up12p=UUAA+DO
(一)主成分分析法17上式给出的表达式是精确的,然而,它实际上是毫无价值的,因为我们的目的是寻求用少数几个公共因子解释,故略去后面的p-m项的贡献,有21111mmmmmmp1122ppuuuuuuuuuuLL=1u12u2pup1u12u2pup1100p212ppuuuuuuLOM1812mmm1122AA+DuuuuuuDL1121122mmpmpmmp2uuuuuDAADuLM上式有一个假定,模型中的特殊因子是不重要的,因而从的分解中忽略了特殊因子的方差。
22212(,)pdiagDL其中221miiiijjsa19结论:
设pmX21的的的的的的的的的,对应的单位正交化的特征向量为pUU,1,根据主成分思的的的想,取累计献率7.00p的前m个主分量。
则正交因子模型中因子载荷阵的主成分解为mpijmmaUUA11特殊因子方差矩阵的解为221pdiagD其中mtitiiias12220注:
残差矩阵=S(AA+D)=ijpp其中S为样本的协方差矩阵。
则有Q(m)=i=1pj=1mij2m+12+p221
(二)主因子法主因子方法是对主成分方法的修正,假定我们首先对变量进行标准化变换。
则R=AA+DR*=AA=R-D称R*为约相关矩阵,R*对角线上的元素是,而不是1。
设是的初始估计,则hi22ih2ihi2的初始估计为i2=1hi2222112122122212ppppphrrrhrRrrhR-DLLMMML*10pRL特征根:
*12,puuuL正交特征向量:
23*1122mmAuuuL结论:
R取的前m个特征向量,则得到因子载荷阵A的主因子解为矩阵D的主因子解为D=diag12p2,其中i2=1t=1mait224的初始估计方法有如下几种:
hi21)取,在这个情况下主因子解与主成分解等价;2)取,为xi与其他所有的原始变量xj的复相关系数的平方,即xi对其余的p-1个xj的回归方程的判定系数,这是因为xi与公共因子的关系是通过其余的p-1个xj的线性组合联系起来的;hi2=1hi2=Ri2Ri2253)取,这意味着取xi与其余的xj的简单相关系数的绝对值最大者;hi2=max|rij|(ji)4)取,其中要求该值为正数。
hi2=1p1j=1,ijprij5)取,其中是的对角元素。
hi2=1/riiriiR128例假定某地固定资产投资率,通货膨胀率,失业率,相关系数矩阵为法一试用主成分分析法求因子分析模型。
x1x2x311/51/51/512/51/52/5129特征根为:
1=1.552=0.853=0.6A=0.4751.550.8830.8500.6291.550.3310.850.7070.60.6291.550.3310.850.7070.6U=0.4750.88300.6290.3310.7070.6290.3310.707=0.5690.81400.7830.3050.5480.7830.3050.54830可取前两个因子F1和F2为公共因子,第一公因子F1物价就业因子,对X的贡献为1.55。
第一公因子F2为投资因子,对X的贡献为0.85。
共同度分别为1,0.706,0.706。
x1=0.569F1+0.814F2x2=0.783F10.305F2+0.548F3x3=0.783F1+0.305F2+0.548F331法二:
试用主因子分析法求因子分析模型。
假定用代替初始的hi2=max|rij|(ji)hi2h12=15,h22=1,h32=25R=1/51/51/51/512/51/52/52/5=1511115212232特征根为:
1=0.91232=0.08773=0对应的非零特征向量为:
0.3690.9290.6570.2610.6570.2610.3690.91230.9290.08770.6570.91230.2610.08770.6570.91230.2610.0877=0.3520.2750.6280.0770.6280.07733x1=0.352F1+0.275F2+1x2=0.625F10.077F2+2x1=0.682F1+0.077F2+3新的共同度为:
h12=0.3522+o.2752=0.18129h22=0.6252+0.0772=0.3966h32=0.6822+0.0772=0.4710344因子旋转建立了因子分析模型的目的不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际背景的解释。
由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。
使因子载荷阵的结构简化,使载荷矩阵中每列或行的元素平方值向0和1两极分化。
有三种主要的正交旋转法:
四次方最大法、方差最大法和等量最大法。
(一)为什么要旋转因子35百米跑成绩跳远成绩铅球成绩跳高成绩400米跑成绩百米跨栏铁饼成绩撑杆跳远成绩标枪成绩1500米跑成绩X1X2X3X4X5X6X7X8X9X10奥运会十项全能运动项目得分数据的因子分析3610.5910.350.4210.340.510.3810.630.490.190.2910.400.520.360.460.3410.280.310.730.270.170.3210.200.360.240.390.230.330.2410.110.210.440.170.130.180.340.2410.070.090.080.180.390.010.020.170.02137变量共同度0.6910.217-0.58-0.2060.840.7890.184-0.1930.0920.70.7020.5350.047-0.1750.80.6740.1340.1390.3960.650.620.551-0.084-0.4190.870.6870.042-0.1610.3450.620.621-0.5210.109-0.2340.720.5380.0870.4110.440.660.434-0.4390.372-0.2350.570.1470.5960.658-0.2790.891F2F3F4F1X2X3X4X5X6X7X8X9X10X因子载荷矩阵可以看出,除第一因子在所有的变量在公共因子上有较大的正载荷,可以称为一般运动因子。
其他的3个因子不太容易解释。
于是考虑旋转因子,得下表38变量共同度0.844*0.1360.156-0.1130.840.631*0.1940.515*-0.0060.70.2430.825*0.223-0.1480.810.2390.150.750*0.0760.650.797*0.0750.1020.4680.870.4040.1530.635*-0.170.620.1860.814*0.147-0.0790.72-0.0360.1760.762*0.2170.66-0.0480.735*0.110.1410.570.045-0.0410.1120.934*0.891F2F3F4F1X2X3X4X5X6X7X8X9X10X39通过旋转,因子有了较为明确的含义。
百米跑,跳远和400米跑,需要爆发力的项目在有较大的载荷,可以称为短跑速度因子;铅球,铁饼和标枪在上有较大的载荷,可以称为爆发性臂力因子;百米跨栏,撑杆跳远,跳远和为跳高在上有较大的载荷,爆发腿力因子;长跑耐力因子。
X2X5F1F1X3X7X9F2X6X8X2X4F3F3F4X140变换后因子的共同度性质设正交矩阵,做正交变换B=AB=(bij)pm=(l=1maillj)hi2(B)=j=1mbij2=j=1m(l=1maillj)2tl=j=1ml=1mail2lj2+j=1mmm=l=1mail2j=1mlj2=l=1mail2=hi2(A)变换后因子的共同度没有发生变化!
(二)旋转方法41变换后因子贡献的性质设正交矩阵,做正交变换B=AB=(bij)pm=(l=1maillj)Sj2(B)=i=1pbij2=i=1p(l=1maillj)2tl=i=1pl=1mail2lj2+i=1pmm=i=1pail2l=1mlj2=Sj2(A)l=1mlj2变换后因子的贡献发生了变化!
421、方差最大法当只有少数几个变量在某个因子上又较高的载荷时,对因子的解释最简单。
方差最大的直观意义是希望通过因子旋转后,使每个因子上的载荷尽量拉开距离,一部分的载荷趋于1,另一部分趋于0。
1,2,;1,2ijijiadipjhL令211(pjijiddp这是列和)简化准则为:
V()=j=1mi=1p(dij2dj)2/p=max定义因子载荷矩阵A的方差为:
V()=j=1mi=1p(dij2dj)2/p=max43例:
m=2时A=a11a12a21a22ap1ap2X1=a11F1+a12F2X2=a21F1+a22F2Xp=ap1F1+ap2F244设旋转矩阵为:
T=(cossinsincos)则B=AT=A(cossinsincos)=(a11cos+a12sina11sin+a12cosap1cos+ap2sinap1sin+ap1cos)=(a11a12ap1ap2)4500V令,则可以解出旋转矩阵为:
T=(cos0sin0sin0cos0)495因子得分
(一)因子得分的概念前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。
如果我们要使用这些因子做其他的研究,比如把得到的因子作为自变量来做回归分析,对样本进行分类或评价,这就需要我们对公共因子进行测度,即给出公共因子的值。
50人均要素变量因子分析。
对我国32个省市自治区的要素状况作因子分析。
指标体系中有如下指标:
X1:
人口(万人)X2:
面积(万平方公里)X3:
GDP(亿元)X4:
人均水资源(立方米/人)X5:
人均生物量(吨/人)X6:
万人拥有的大学生数(人)X7:
万人拥有科学家、工程师数(人)RotatedFactorPatternFACTOR1FACTOR2FACTOR3X1-0.21522-0.273970.89092X20.63973-0.28739-0.28755X3-0.157910.063340.94855X40.95898-0.01501-0.07556X50.97224-0.06778-0.17535X6-0.114160.98328-0.08300X7-0.110410.97851-0.0724651高载荷指标因子命名因子1X2;面积(万平方公里)X4:
人均水资源(立方米/人)X5:
人均生物量(吨/人)自然资源因子因子2X6:
万人拥有的大学生数(人)X7:
万人拥有的科学家、工程师数(人)人力资源因子因子3X1;人口(万人)X3:
GDP(亿元)经济发展总量因子X1=-0.21522F1-0.27397F2+0.89092F3X2=0.63973F1-0.28739F2-0.28755F3X3=-0.15791F1+0.06334F2+0.94855F3X4=0.95898F1-0.01501F2-0.07556F3X5=0.97224F1-0.06778F2-0.17535F3X6=-0.11416F1+0.98328F2-0.08300F3X7=-0.11041F1+0.97851F2-0.07246F352StandardizedScoringCoefficientsFACTOR1FACTOR2FACTOR3X10.05764-0.060980.50391X20.22724-0.09901-0.07713X30.146350.129570.59715X40.479200.112280.17062X50.455830.074190.10129X60.054160.486290.04099X70.057900.485620.04822F1=0.05764X1+0.22724X2+0.14635X3+0.47920X4+0.45583X5+0.05416X6+0.05790X7F2=-0.06098X1-0.09901X2+0.12957X3+0.11228X4+0.07419X5+0.48629X6+0.48562X7F3=0.50391X1-0.07713X2+0.59715X3+0.17062X4+0.10129X5+0.04099X6+0.04822X753REGIONFACTOR1FACTOR2FACTOR3beijing-0.081694.23473-0.37983tianjin-0.474221.31789-0.87891hebei-0.22192-0.358020.86263shanxi1-0.48214-0.32643-0.54219neimeng0.54446-0.66668-0.92621liaoning-0.205110.463770.34087jilin-0.214990.10608-0.57431heilongj0.10839-0.11717-0.02219shanghai-0.200692.38962-0.04259前三个因子得分54因子分析的数学模型为:
X1X2Xn=11121m21222mp1p2pmF1F2Fm原变量被表示为公共因子的线性组合,当载荷矩阵旋转之后,公共因子可以做出解释,通常的情况下,我们还想反过来把公共因子表示为原变量的线性组合。
因子得分函数:
Fj=j1X1+jpXpj=1,m可见,要求得每个因子的得分,必须求得分函数的系数,而由于pm,所以不能得到精确的得分,只能通过估计。
551、巴特莱特因子得分(加权最小二乘法)把看作因变量;把因子载荷矩阵看成自变量的观测;把某个个案的得分看着最小二乘法需要求的系数。
xii11121m21222mp1p2pmFij1)巴特莱特因子得分计算方法的思想56xi11=a11f1+a12f2+a1mfm+1xi22=a21f1+a22f2+a2mfm+2xipp=ap1f1+ap2f2+apmfm+m由于特殊因子的方差相异,所以用加权最小二乘法求得分,每个各案作一次,要求出所有样品的得分,需要作n次。
j=1p(xiji)(ai1f1+ai2f2+aimfm)2/i21,mffL使上式最小的是相应个案的因子得分。
57用矩阵表达:
x-=AF+1()()minx-AFDx-AF满足上式的F是相应个案的因子得分。
2112200DO其中58111D(x-)=DAF+D1-1-1AD(x-)=ADAF+AD-1-1AD(x-)=ADAF1-1-1ADAAD(x-)=F1()()0x-AFDx-AFF12()0ADx-AF1()0AD592)得分估计的无偏性如果将f和不相关的假定加强为相互独立,则1(E-1-1ADAADAF+/F)1)/)EE-1-1(F/FADAAD(x-)F1-1-1ADAADAF11-1ADAADAFF603)F的估计精度1()FF-1-1ADAADAF+F1-1-1ADAAD()EF-F)(F-F11E-1-1-1-1ADAADDAADA11-1-1-1-1ADAADDDAADA1-1ADA612、回归方法X1X2Xn=11121m21222mn1n2nmF1F2Fm+12nFj=bj1X1+bjpXpj=1,mb11b12b1pb21b22b2pbm1bm2bmp=b1b2bm1)思想62ij=xiFj=E(XiFj)=EXi(bj1X1+bjpXp)=bj1i1+bjpip=ri1ri2ripbj1bj2bjp则,我们有如下的方程组:
6311121p21222pp1p2ppbj1bj2bjp=a1ja2japjj=1,2,m11121p21222pp1p2pp为原始变量的相关系数矩阵64bj1bj2bjp为第j个因子得分函数的系数a1ja2japj为载荷矩阵的第j列注:
共需要解m次才能解出所有的得分函数的系数。
65矩阵表示方法在因子模型中,假设服从(m+p)元的正态分布,有F()()EEEFF0xxVEFFFx-xx-66()()()EEEEFFFx-x-Fx-x-()()IEEFx-x-F()()IEEFAF+AF+FIAA67()E-1-12F/x-A+Ax21xx这是一个对于给定的的多元回归模型。
1()Ax122()(E-1-11122212222x/x-)+x1FA(AA+D)(x-)可见682)估计的有偏性11()()EF-F)(F-FI+ADA3)平均预报误差11()EF/FF-(I+ADA)F69国民生活质量的因素分析国家发展的最终目标,是为了全面提高全体国民的生活质量,满足广大国民日益增长的物质和文化的合理需求。
在可持续发展消费的统一理念下,增加社会财富,创自更多的物质文明和精神文明,保持人类的健康延续和生生不息,在人类与自然协同进化的基础上,维系人类与自然的平衡,达到完整的代际公平和区际公平(即时间过程的最大合理性与空间分布的最大合理化)。
从1990年开始,联合国开发计划署(UYNP)首次采用“人文发展系数”指标对于国民生活质量进行测度。
人文发展系数利用三类内涵丰富的指标组合,即人的健康状况(使用出生时的人均预期寿命表达)、人的智力程度(使用组合的教育成就表达)、人的福利水平(使用人均国民收入或人均GDP表达),并且特别强调三类指标组合的整体表达内涵,去衡量一个国家或地区的社会发展总体状况以及国民生活质量的总水平。
70在这个指标体系中有如下的指标:
X1预期寿命X2成人识字率X3综合入学率X4人均GDP(美圆)X5预期寿命指数X6教育成就指数X7人均GDP指数71旋转后的因子结构RotatedFactorPatternFACTOR1FACTOR2FACTOR3X10.381290.417650.81714X20.121660.848280.45981X30.648030.618220.22398X40.904100.205310.34100X50.388540.432950.80848X60.282070.853250.43289X70.900910.206120.35052FACTOR1为经济发展因子FACTOR2为教育成就因子FACTOR3为健康水平因子72被每个因子解释的方差和共同度VarianceexplainedbyeachfactorFACTOR1FACTOR2FACTOR32
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 因子分析
![提示](https://static.bingdoc.com/images/bang_tan.gif)