第七章 主成分分析.docx
- 文档编号:5434466
- 上传时间:2023-05-08
- 格式:DOCX
- 页数:33
- 大小:568.05KB
第七章 主成分分析.docx
《第七章 主成分分析.docx》由会员分享,可在线阅读,更多相关《第七章 主成分分析.docx(33页珍藏版)》请在冰点文库上搜索。
第七章主成分分析
应用多元统计分析
第七章主成分分析
目录
§7.1总体的主成分
§7.2样本的主成分
多变量分析(MultivariateAnalysis)是处理多变量(多指标)的统计问题。
多个变量之间常存在相关性,人们希望用较少不相关的变量来代替原来较多且相关的变量。
主成分就是要从原变量的各种线性组合中找出能集中反映原变量信息的综合变量。
第七章§7.1总体的主成分
什么是主成分分析
主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法.在实际问题中,研究多指标的问题是经常遇到的问题.由于变量个数太多,并且彼此之间存在着一定的相关性,势必增加分析问题的复杂性.主成分分析就是设法把原来的多个指标重新组合成较少几个新的互不相关的综合变量来代替原来的变量;而且这几个综合变量又能够尽可能多地反映原来变量的信息.利用这种降维的思想,产生了主成分分析、因子分析、典型相关分析等统计方法.
设X=(X1,…,Xp)′是p维随机向量,均值向量E(X)=μ,协差阵D(X)=Σ.考虑它的线性变换:
易见:
假如我们希望用Z1来代替原来的p个变量X1,…,Xp,这就要求Z1尽可能多地反映原来p个变量的信息,这里所说的“信息”用什么来表达呢?
最经典的方法是用Z1的方差来表达.Var(Z1)越大,表示Z1包含的信息越多.由(7.1.2)式看出,对a1必须有某种限制.否则可使Var(Z1)→∞.常用的限制是:
a1'a1=1.若存在满足以上约束的a1,使Var(Z1)达最大,Z1就称为第一主成分(或主分量
如果第一主成分不足以代表原来p个变量的绝大部分信息.考虑X的第二个线性组合Z2.为了有效地代表原变量组的信息,Z1已体现(反映)的信息不希望在Z2中出现,用统计术语来讲,就是要求
Cov(Z2,Z1)=a2'Σa1=0.(7.1.3)
于是求Z2时,就是在约束a2'a2=1和(7.1.3)下,求a2使Var(Z2)达最大,所求之Z2称为第二主成分,类似地可求得第三主成分,第四主成分,….,第p主成分。
换言之,若原数据有p个变量,则恰好可得到p个主成分:
1.每个主成分都是原变量的线性组合;
2.不同主成分间互不相关(互相正交);
3.主成分以其方差减少次序排列:
第一主成分具有最大方差,
第二主成分是与第一主成分正交的原变量的线性组合中具有最大方差者,
其余主成分都有类似的性质.
或者说,若原变量包含有一定的信息,则全体主成分包含与原变量相同的信息.方差反映了变量取值的离散程度,方差大小表示了变量包含信息的多少.
第一主成分包含了尽可能多的信息,
不同的主成分包含的信息互不重复;
第二主成分包含除第一主成分外剩余信息中尽可能多的信息;
其余主成分都有类似的性质.
主成分的定义
定义7.1.1设X=(X1,…,Xp)′为p维随机向量.称Zi=ai'X为X的第i主成分(i=1,2,…,p),如果:
①ai'ai=1(i=1,2,…,p);
②当i>1时ai'Σaj=0(j=1,…,i-1);
③Var(Zi)=MaxVar(α'X).
α'α=1,α'Σaj=0(j=1,…,i-1)
主成分的几何意义
从代数学观点看主成分就是p个变量的一些特殊的线性组合,而从几何上看这些线性组合正是把X1,…,Xp构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样本变差最大的方向(或者说具有最大的样本方差).
设有n个观测,每个观测有p个变量X1,…,Xp,它们的综合指标(主成分)记为Z1,…,Zp.
当p=2时原变量为X1,X2.设(X1,X2)服从二元正态分布,则样品点X(i)=(xi1,xi2)(i=1,2,…n)的散布图(见下面图形)在一个椭园内分布着
对于二元正态随机向量,n个点散布在一个椭园内(当X1,X2相关性越强,这个椭园就越扁).
若取椭园的长轴为坐标轴Z1,椭园的短轴为Z2,这相当于在平面上作一个坐标变换,即按逆时针方向旋转一个角度a,根据旋转变换公式,新老坐标之间有关系:
Z1=CosaX1+SinaX2
Z2=-SinaX1+CosaX2
Z1Z2是原变量X1和X2的特殊线性组合.
从图上可以看出二维平面上n个点的波动(用二个变量的方差和表示)大部分可以归结为在Z1方向的波动,而在Z2方向上的波动很小,可以忽略.这样一来,二维问题可以降为一维了,只取第一个综合变量Z1即可,而Z1是椭园的长轴.
一般情况,p个变量组成p维空间,n个样品点就是p维空间的n个点.对于p元正态分布变量来说,找主成分的问题就是找p维空间中椭球的主轴问题.
主成分分析的内容
主成分分析的计算一般是从原变量的协差阵或相关矩阵出发进行,包含以下内容:
1.各主成分的构成;
2.各主成分的方差及其在总方差中所占的比例(贡献率);
3.每个观测在各个主成分下的得分值;
4.各主成分与原变量的相关性.
主成分的求法
设p维随机向量X的均值E(X)=0,协差阵D(X)=Σ>0.由定义7.1.1,求第一主成分Z1=a1'X的问题就是求a1=(a11,a21,…,ap1)′,使得在a1'a1=1下,Var(Z1)达最大.
这是条件极值问题,用拉格朗日乘数法.令
φ(a1)=Var(a1'X)-λ(a1'a1-1)
=a1'Σa1-λ(a1'Ipa1-1),
由
因a1≠0,故|Σ-λI|=0,求解(7.1.4),其实就是求Σ的特征值和特征向量问题.设λ=λ1是Σ的最大特征值,则相应的单位特征向量a1即为所求.一般地,求X的第i主成分就是求Σ的第i大特征值对应的单位特征向量.
定理7.1.1设X=(X1,…,Xp)′是p维随机向量,且D(X)=Σ,Σ的特征值λ1≥λ2≥…≥λp,A1,a2,…,ap为相应的单位正交特征向量,则X的第i主成分为
Zi=ai'X(i=1,2,…,p).
回顾附录中定理7.2
定理7.2设B是p阶对称阵,λi=chi(B)是B的第i大的特征值,li是相应于λi的B的标准化特征向量(i=1,…,p),x为任一非零p维向量,那么有
右边不等式的等号当x=cl1时成立,左边不等式的等号当x=clp时成立,这里c是非零常数.
(2)记£2=£(lr+1,…,lp),即£2是由lr+1,…,lp张成的空间,则
且当x=clr+1时达到最大值,这里c非零常数.
定理7.1.1证明:
因Σ为对称阵,利用附录中定理7.2的结论
(1),可知对任意非零向量a有且最大值在a=a1时达到.故在a1'a1=1的约束条件下,使得
达极大值.
根据主成分的定义7.1.1,Z1=a1'X为X的第一主成分.对r=2,3,…,p,记£r=£(ar,…,ap),利用附录中的定理7.2的结论
(2)即得
且最大值在a=ar时达到。
故在ar'ar=1的约束条件下,ar满足:
且使得
达极大值.根据主成分的定义7.1.1,Zr=ar'X为X的第r主成分.
定理7.1.1的推论:
设Z=(Z1,Z2,…,Zp)′为p维随机向量,则其分量Zi(i=1,2,…,p)依次是X的第i主成分的充分必要条件是:
①Z=A'X,A为正交阵;
②D(Z)=diag(λ1,λ2,…,λp),即随机向量Z的协差阵为对角阵;
③λ1≥λ2≥…≥λp≥0.
主成分的性质
主成分Zi就是以Σ的单位特征向量ai为系数的线性组合,它们互不相关,且方差Var(Zi)=λi.
记Σ=(σij),Λ=diag(λ1,λ2,…,λp),其中λ1≥λ2≥…≥λp为Σ的特征值,a1,a2,…,ap是相应的单位正交特征向量.
主成分向量Z=(Z1,…,Zp)′,其中
Zi=ai'X(i=1,2,…,p)
总体主成分有如下性质:
(1)D(Z)=Λ,即p个主成分的方差为:
Var(Zi)=λi,且它们是互不相关
(2)
通常称
为原总体X的总方差,该性质说明原总体X的总方差可分解为不相关的主成分的方差和.
且存在即p个原变量所提供的总信息(总方差)的绝大部分只须用前m个主成分来代替。
这说明若前几个主成分集中了大部分信息,则后几个主成分的方差都很小,包含的信息也很少.
在实际应用时就可用前面较少的几个主成分来代替原p个变量来描述数据的变化.
(3)主成分Zk与原始变量Xi的相关系数
证明:
Var(Xi)=σiiVar(Zk)=λk
Cov(Xi,Zk)=Cov(ei'X,ak'X)
=ei'Σak=ei'(λkak)
=λkaik(ei是第i个元素为1,其余为0的单位向量)
常把主成分Zk与原始变量Xi的相关系数称为因子负荷量(或因子载荷量).利用因子载荷量,可对指标分类.如果把主成分与原始变量的相关系数列成表7.1的形式,则由相关系数的公式,还可得出性质(4)和(5).
事实上,由故有
因Xi也可表成Z1,…,Zp的线性组合,且Z1,…,Zp相互独立,由回归分析的知识,Xi与Z1,…,Zp的全相关系数的平方和等于1,即表7.1中每一行的平方和均为1.
(5)
因Zk可表成X1,…,Xp的线性组合,但X1,…,Xp一般有相关性,由Zk与Xi的相关系数的公式,可得出表7.1中Zk对应的每一列关于各变量方差的加权平方和为λk(即Var(Zk)=λk).
主成分的贡献率
主成分分析的目的是为了简化数据结构(即减少变量的个数),故在实际应用中一般不用p个主成分,而选用前m(m
定义7.1.2称λk/[λ1+...+λm+…+λp]为主成分Zk的贡献率;
又称fm=[λ1+λ2+...+λm]/[λ1+λ2+...+λm+…+λp]
为主成分Z1,…,Zm(m
通常取m,使累计贡献率达到70%或80%以上,累计贡献率的大小表达m个主成分提取了X1,…,Xp的多少信息,但它没有表达某个变量被提取了多少信息,为此又引入另一个概念.
定义7.1.3前m个主成分Z1,…,Zm对原变量Xi的贡献率υi(m)定义为Xi与Z1,…,Zm的相关关系数的平方,它等于
例7.1.1设随机向量X=(X1,X2,X3)′的协差阵为
Σ=
试求X的主成分及其对变量Xi的贡献率υi(i=1,2,3).
解:
Σ的特征值为λ1=3+81/2,λ2=2,λ3=3-81/2.
由相应标准化特征向量可得出主成分:
Z1=0.383X1-0.924X2,Z2=X3(X3本身就是一个主分量,它与X1,X2不相关),Z3=0.924X1+0.383X2.
当取m=1或m=2时,主成分对X的贡献率可达72.8%或97.85%.下表列出m个主分量对变量Xi的贡献
标准化变量的主成分及性质
在实际问题中,不同的变量往往有不同的量纲,而通过Σ来求主成分首先优先照顾方差(σii)大的变量,有时会造成很不合理的结果,为了消除由于量纲的不同可能带来的一些不合理的影响,常采用将变量标准化的方法.
即令
标准化后的随机向量X*=(X1*,X2*,…,Xp*)′的协差阵Σ*就是原随机向量X的相关阵R.从相关阵R出发来求主成分,记为Z*=(Z1*,…,Zp*)′,则Z*与Z具有相似的性质.把主成分Zk*(k=1,…,p)对变量Xi*的因子负荷量ρik=ρ(Zk*,Xi*)列成表7.2
§7.2样本的主成分
在实际问题中,一般协差阵Σ未知,需要通过样本来估计.设X(t)=(xt1,…,xtp)′(t=1,…,n)为来自总体X的样本,记样本资料阵
X=
=
记样本协差阵为S,样本相关阵为R,并用S作为Σ的估计或用R作为总体相关阵的估计.
样本主成分及其性质
假定每个变量的观测数据都已标准化(X=0),这时样本协差阵就是样本相关阵R,且
R=S=离差阵/(n-1)=X'X/(n-1)
仍记R阵的p个主成分为Z1,…,Zp,λ1≥λ2≥…≥λp≥0为R的特征根,a1,a2,…,ap为相应的标准化特征向量(记正交阵A=(a1,…,ap)).显然第i个样本主成分为Zi=ai'X(i=1,…,p).
将第t个样品X(t)=(xt1,…,xtp)′的值代入Zi得样品t的第i个主成分得分zti=ai'X(t)(i=1,…,p).
记Z(t)=(zt1,zt2,…,ztp)′(t=1,…,n)
=(a1'X(t),a2'X(t),…,ap'X(t))′
=A'X(t)
称Z(t)为第t个样品的主成分得分向量.
表7.3原始数据和样本主成分得分
令
样本主成分得分阵Z和原始数据阵X有如下关系:
Z=Z
(1)'=X
(1)'A
或X=ZA',其中Z(t)=A'X(t)(t=1,2,…,n)
样本主成分得分具有如下一些性质.
(1)Z=(Z
(1)+Z
(2)+…+Z(n))/n
=(A'X
(1)+A'X
(2)+…+A'X(n))/n=A'X=0,
以下由样本主成分得分的协差阵来得出样本主成分的性质
(1)的另一结论.
样本主成分得分的协差阵为
SZ=Z'Z/(n-1)
标准化变量的样本协差阵就是样本相关阵R,且
R=X'X/(n-1)
R阵的p个特征根λ1≥λ2≥…≥λp相应的标准化特征向量为a1,a2,…,ap。
记正交阵A=(a1,…,ap).则有A'RA=diag(λ1,λ2,…,λp)
又知Z=XA,则SZ=Z'Z/(n-1)=A'X'XA/(n-1)
=A'RA=diag(λ1,λ2,…,λp)
=∧
Z'Z=(n-1)∧
zi'zi=(n-1)λi(i=1,2,…,p)zi'zj=0(当i≠j时)
上式说明样本主成分得分的样本均值为0,样本协差阵为对角阵.当i≠j时,第i个主成分得分向量zi与第j个主成分得分zj是相互正交
(2)
因A'RA=diag(λ1,λ2,…,λp)
称λk/p为样本主成分Zk的贡献率;又称fm=[λ1+…+λm]/p为样本主成分Z1,…,Zm(m
(3)样本主成分具有使残差平方和最小的优良性
如果我们只取前m个主成分(m
Xj=bj1Z1+…+bjmZm+j(j=1,…,p)(*)
则当bjk=ajk(k=1,…,m)时,可使回归方程的残差平方和达最小值.而且回归方程的决定系数R2(j)=υj(m).
我们把υj(m)称为m个主成分对原变量Xj的贡献率,υj(m)的大小反映了m个主成分能够反映Xj的变差的比例.
把表7.3给出的原始变量的观测数据和前m个主成分的得分数据作为以上模型(*)中因变量X1,…,Xp和自变量Z1,…,Zm的观测数据.问题化为:
按最小二乘准则求参数矩阵B:
,使得残差平方和Q(B)达最小.
记
则多对多的回归模型(*)的矩阵形式为:
X=Z*B'+E
由多因变量的回归分析(参见第四章)的理论知:
参数矩阵B的最小二乘估计为
B'=(Z*'Z*)-1Z*'X记A*=(a1,…,am),A2=(am+1,…,aP)则由
Z=(Z*|Z2)=XA=X(A*|A2)可得Z*=XA*
且因A*'RA*=diag(λ1,λ2,…,λm),
于是Z*'Z*=A*'X'XA*=(n-1)A*'RA*
=(n-1)diag(λ1,λ2,…,λm)
即当B=A*或bjk=ajk(j=1,2,…,p;k=1,…,m)时,可使回归的残差平方和达最小值.而Xj回归方程的决定系数
R2(j)=υj(m)(j=1,2,…,p).
主成分的个数及解释
主成分分析的目的之一是简化数据结构,用尽可能少的主成分Z1,…,Zm(m
①m个主成分所反映的信息与原来p个变量提供的信息差不多;②m个主成分又能对资料所具有的意义进行解释.
主成分个数的确定
主成分的个数m如何选取是实际工作者关心的问题.关于主成分的个数如何确定,常用的标准有两个:
(1)按累计贡献率达到一定程度(如70%或80%以上)来确定m;
(2)先计算S或R的p个特征根的均值λ,取大于λ的特征根个数m.当p<=20时,大量实践表明,第一个标准容易取太多的主成分,而第二个标准容易取太少的主成分,故最好将两者给合起来应用,同时要考虑m个主成分对Xi的贡献率υi(m).
应用例子7.2.1
例7.2.1学生身体各指标的主成分分析.随机抽取30名某年级中学生,测量其身高(X1)、体重(X2)、胸围(X3)和坐高(X4),数据见书中P277表7.4(或以下SAS程序的数据行).试对中学生身体指标数据做主成分分析.解
(1)以下SAS程序首先生成包括30名学生身体指标数据的SAS数据集d721(其中变量NUMBER记录识别学生的序号),然后调用SAS/STA软件中的PRINCOMP过程进行主成分分析.
例7.2.1的sas程序
Datad721;
inputnumberx1-x4@@;行指针控指示读完该行
数据行后再跳到下一行。
cards;
11484172782139347176
31604977864149366779
………………………………...
2714436687628141306776
2913932687330148387078
;该选项主成分的前
缀名字为z
procprincompdata=d721prefix=zout=o721;
varx1-x4;
run;
procplotdata=o721;
plotz2*z1$number='*';绘制前二个主成分得分的散点图.作图符号为'*',并在每散点旁边加上序号,以便识别各个观测.
run;
procsortdata=o721;把输出集o721按第一主成分
z1的得分值从小到大排序
byz1;
run;
procprintdata=o721;
varnumberz1z2x1-x4;输出排序后的数据集o721
run;
例7.2.1的输出结果
学生身体指标数据的描述统计量和相关阵
输出7.2.1相关阵的特征值和特征向量
例7.2.1的结果分析
PRINCOMP过程由相关阵出发进行主成分分析.由输出7.2.1中相关阵的特征值可以看出,第一主成分的贡献率已高达88.53%;且前二个主成分的累计贡献率已达96.36%.因此只须用两个主成分就能很好地概括这组数据.另由第三和四个特征值近似为0,可以得出这4个标准化后的身体指标变量(Xi*,i=1,2,3,4)有近似的线性关系(即所谓共线性),如0.505747X1*-0.690844X2*+0.461488X3*-0.232343X4*≈c(常数).
由最大的两个特征值对应的特征向量可以写出第一和第二主成分:
Z1=0.4970X1*+0.5146X2*+0.4809X3*+0.5069X4*
Z2=-0.5432X1*+0.2102X2*+0.7246X3*-0.3683X4*
第一和第二主成分都是标准化后变量Xi*(i=1,2,3,4)的线性组合,且组合系数就是特征向量的分量.
利用特征向量各分量的值可以对各主成分进行解释.第一大特征值对应的第一个特征向量的各个分量值均在0.5附近,且都是正值,它反映学生身材的魁梧程度.身体高大的学生,他的4个部位的尺寸都比较大;而身体矮小的学生,他的4个部位的尺寸都比较小.因此我们称第一主成分为大小因子.
第二大特征值对应的特征向量中第一(即身高X1的系数)和第四个分量(即坐高X4的系数)为负值,而第二(即体重X2的系数)和第三个分量(即胸围X3的系数)为正值,它反映学生的胖瘦情况,故称第二主成分为胖瘦因子.
输出7.2.2第二主成分得分对第一主成分得分的散布图
输出7.2.2是PLOT过程产生的输出图形,从图中可以直观地看出,按学生的身体指标尺寸,这30名学生大约应分成三组(以第一主成分得分值为-1和2为分界点).每一组包括哪几名学生由每个散点旁边的序号可以得知.更详细的信息可从PRINT过程产生的输出数据列表中得到.
按第一主成分得分排序后的主成分得分和原始数据
以上输出列表中把30个观测按第一主成分从小到大重新排序后的输出结果.从这里可以得到分为三组时各组学生的更多的信息如下:
G1={11,15,29,10,28,6,24,14,2,27,18}
G2={4,30,22,1,16,26,23,21,8,9,7,17}
G3={20,13,19,12,5,3,25}
若考虑用Z1,Z2进行聚类,这就是主成分聚类方法.
以下不作要求
§7.3主成分分析的应用
主成分分析方法把p维数据简化为m(mp)维数据后,进一步地可用于变量的分类,样品的分类,对样品进行排序或对系统进行评估,以及主成分回归,主成分聚类,多维正态数据的主成分检验等方面。
设n次观测数据阵X已标准化,这时样本协差阵就是样本相关阵R,R的特征值为λ1≥λ2≥…≥λp相应的标准化特征向量为a1,a2,…,ap。
样本主成分为
Zi=ai'X(i=1,…,p).
设m为满足累计贡献率>P0(一般取1≥P0≥0.7)的最小正整数,取前m个主成分Z1,Z2,…,Zm,由样本观测数据X(i)(i=1,2,…n)可求得m个主成分的得分值zij:
利用样本主成分的性质(3),Xk由前m个主成分Z1,Z2,…,Zm的最佳(残差平方和最小)表示式为
把Z*(i)(i=1,2,…,n)代入上式,可得
由此可得出由主成分得分值估计变量Xk的得分向量.记
其中
(7.3.2)
X=ZA'=(Z*|Z2)(A*|A2)'=Z*(A*)'+Z2A2'=X*+Z2A2'
因
所以,
当选取合适的m,可使得后面的p-m个i的和很小,这时就有
指标(变量)分类
如果第i个变量和第j个变量的相关系数rij≈1,显然这两个变量应归为一类.仍用Xi和Xj表示这两个变量的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第七章 主成分分析 第七 成分 分析