欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    第七章 主成分分析.docx

    • 资源ID:5434466       资源大小:568.05KB        全文页数:33页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第七章 主成分分析.docx

    1、第七章 主成分分析应用多元统计分析第七章 主成分分析目 录7.1 总体的主成分7.2 样本的主成分多变量分析(Multivariate Analysis)是处理多变量(多指标)的统计问题。 多个变量之间常存在相关性,人们希望用较少不相关的变量来代替原来较多且相关的变量。 主成分就是要从原变量的各种线性组合中找出能集中反映原变量信息的综合变量。第七章7.1 总体的主成分什么是主成分分析主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法. 在实际问题中,研究多指标的问题是经常遇到的问题.由于变量个数太多,并且彼此之间存在着一定的相关性,势必增加分析问题的复杂性.主成分分析就是设法把原来的

    2、多个指标重新组合成较少几个新的互不相关的综合变量来代替原来的变量;而且这几个综合变量又能够尽可能多地反映原来变量的信息. 利用这种降维的思想,产生了主成分分析、因子分析、典型相关分析等统计方法. 设X=(X1,Xp)是p维随机向量,均值向量E(X)=,协差阵D(X)=.考虑它的线性变换:易见: 假如我们希望用Z1来代替原来的p个变量X1,Xp ,这就要求Z1尽可能多地反映原来p个变量的信息,这里所说的“信息”用什么来表达呢?最经典的方法是用Z1的方差来表达. Var(Z1)越大,表示Z1包含的信息越多.由(7.1.2)式看出,对a1必须有某种限制.否则可使Var(Z1).常用的限制是:a1a1

    3、 =1. 若存在满足以上约束的a1,使Var(Z1)达最大, Z1就称为第一主成分(或主分量如果第一主成分不足以代表原来p个变量的绝大部分信息.考虑X的第二个线性组合Z2 . 为了有效地代表原变量组的信息,Z1已体现(反映)的信息不希望在Z2中出现,用统计术语来讲,就是要求 Cov(Z2,Z1)=a2a1=0. (7.1.3)于是求Z2时,就是在约束a2a2=1和(7.1.3)下,求a2使Var(Z2)达最大,所求之Z2称为第二主成分,类似地可求得第三主成分,第四主成分,.,第p主成分。 换言之,若原数据有p个变量,则恰好可得到p个主成分: 1. 每个主成分都是原变量的线性组合; 2. 不同主

    4、成分间互不相关(互相正交); 3. 主成分以其方差减少次序排列: 第一主成分具有最大方差, 第二主成分是与第一主成分正交的原变量的线性组合中具有最大方差者, 其余主成分都有类似的性质. 或者说,若原变量包含有一定的信息,则全体主成分包含与原变量相同的信息. 方差反映了变量取值的离散程度,方差大小表示了变量包含信息的多少. 第一主成分包含了尽可能多的信息, 不同的主成分包含的信息互不重复; 第二主成分包含除第一主成分外剩余信息中尽可能多的信息; 其余主成分都有类似的性质.主成分的定义定义7.1.1 设X=(X1,Xp)为p维随机向量.称 Zi=aiX 为X的第i 主成分(i=1,2,p),如果:

    5、 aiai=1 (i=1,2,p); 当i 1时 aiaj=0 ( j=1,i-1); Var(Zi)= Max Var(X). =1,aj =0(j=1,i-1) 主成分的几何意义从代数学观点看主成分就是p个变量的一些特殊的线性组合,而从几何上看这些线性组合正是把X1,Xp构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样本变差最大的方向(或者说具有最大的样本方差). 设有n个观测,每个观测有p个变量X1,Xp , 它们的综合指标(主成分)记为Z1,Zp .当p=2时原变量为X1, X2.设(X1, X2 )服从二元正态分布,则样品点X(i) =(xi1, xi2 ) (i=1,2,n)的散

    6、布图(见下面图形)在一个椭园内分布着对于二元正态随机向量,n个点散布在一个椭园内(当X1, X2相关性越强,这个椭园就越扁).若取椭园的长轴为坐标轴Z1,椭园的短轴为Z2,这相当于在平面上作一个坐标变换,即按逆时针方向旋转一个角度a, 根据旋转变换公式,新老坐标之间有关系: Z1=Cos aX1+ Sin aX2 Z2= -Sin aX1+ Cos aX2Z1 Z2 是原变量X1和X2 的特殊线性组合.从图上可以看出二维平面上n个点的波动(用二个变量的方差和表示)大部分可以归结为在Z1方向的波动,而在Z2 方向上的波动很小,可以忽略.这样一来,二维问题可以降为一维了,只取第一 个综合变量Z1即

    7、可,而Z1是椭园的长轴. 一般情况,p个变量组成p维空间,n个样品点就是p维空间的n个点.对于p元正态分布变量来说,找主成分的问题就是找p维空间中椭球的主轴问题.主成分分析的内容主成分分析的计算一般是从原变量的协差阵或相关矩阵出发进行,包含以下内容: 1. 各主成分的构成 ; 2. 各主成分的方差及其在总方差中所占的比例(贡献率) ; 3. 每个观测在各个主成分下的得分值; 4. 各主成分与原变量的相关性 .主成分的求法设p维随机向量X的均值E(X)=0,协差阵D(X)=0.由定义7.1.1,求第一主成分Z1= a1X的问题就是求a1=(a11,a21,ap1),使得在a1a1=1下,Var(

    8、Z1)达最大. 这是条件极值问题,用拉格朗日乘数法.令 (a1)=Var(a1X)-(a1a1-1) = a1a1-(a1Ipa1-1),由因a10,故|-I|=0,求解(7.1.4),其实就是求的特征值和特征向量问题.设=1是的最大特征值,则相应的单位特征向量a1即为所求. 一般地,求X的第i主成分就是求的第i大特征值对应的单位特征向量. 定理7.1.1 设X=(X1,Xp)是p维随机向量,且D(X)=,的特征值12p ,A1,a2,ap为相应的单位正交特征向量,则X的第i主成分为 Zi= aiX (i=1,2,p). 回顾附录中定理7.2定理7.2 设B是p阶对称阵,i=chi(B)是B的

    9、第i大的特征值,li 是相应于i的B的标准化特征向量(i1,p), x为任一非零p维向量,那么有 右边不等式的等号当x=cl1时成立,左边不等式的等号当x=clp时成立,这里c是非零常数. (2)记2=(lr+1,lp ),即2是由lr+1,lp 张成的空间,则 且当x=clr+1 时达到最大值,这里c非零常数. 定理7.1.1证明: 因为对称阵,利用附录中定理7.2的结论(1),可知对任意非零向量a有 且最大值在a=a1时达到.故在a1a1 =1的约束条件下,使得达极大值.根据主成分的定义7.1.1,Z1= a1 X为X的第一主成分.对r=2,3,p,记r (ar,ap),利用附录中的定理7

    10、.2的结论(2)即得且最大值在a=ar时达到。故在arar =1的约束条件下, ar 满足:且使得达极大值.根据主成分的定义7.1.1,Zr= ar X为X的第r主成分. 定理7.1.1的推论:设Z=(Z1, Z2 , Z p )为p维随机向量,则其分量Zi (i=1,2, p) 依次是X的第i主成分的充分必要条件是: Z=AX,A为正交阵; D(Z)=diag(1 , 2 , , p ),即随机向量Z的协差阵为对角阵; 12p 0 .主成分的性质主成分Zi就是以的单位特征向量ai为系数的线性组合,它们互不相关,且方差Var(Zi)= i . 记=(ij),=diag(1,2,p), 其中12

    11、p为的特征值, a1,a2,ap是相应的单位正交特征向量.主成分向量Z = (Z1,Zp), 其中 Zi=aiX (i=1,2,p) 总体主成分有如下性质:(1) D(Z)=,即p个主成分的方差为: Var(Zi)=i ,且它们是互不相关 (2) 通常称为原总体X的总方差,该性质说明原总体X的总方差可分解为不相关的主成分的方差和. 且存在 即p个原变量所提供的总信息(总方差)的绝大部分只须用前m个主成分来代替。这说明若前几个主成分集中了大部分信息,则后几个主成分的方差都很小,包含的信息也很少. 在实际应用时就可用前面较少的几个主成分来代替原p个变量来描述数据的变化.(3)主成分Zk与原始变量X

    12、i的相关系数证明 : Var(Xi) =ii Var(Zk) = k Cov( Xi ,Zk )=Cov(eiX, ak X) = ei ak = ei (k ak ) = k aik (ei是第i个元素为1,其余为0的单位向量)常把主成分Zk与原始变量Xi的相关系数称为因子负荷量(或因子载荷量).利用因子载荷量,可对指标分类.如果把主成分与原始变量的相关系数列成表7.1的形式,则由相关系数的公式,还可得出性质(4)和(5).事实上,由 故有因Xi也可表成Z1,Zp的线性组合,且 Z1, Zp相互独立,由回归分析的知识, Xi 与 Z1,Zp的全相关系数的平方和等于1,即表7.1中每一行的平方

    13、和均为1. (5)因Zk可表成X1,Xp的线性组合,但X1,Xp 一般有相关性,由Zk与Xi的相关系数的公式,可得出表7.1中Zk对应的每一列关于各变量方差的加权平方和为k (即Var(Zk)=k). 主成分的贡献率主成分分析的目的是为了简化数据结构(即减少变量的个数),故在实际应用中一般不用p个主成分,而选用前m(mp)个主成分.m取多大,这是一个很实际的问题.为此,我们引进贡献率的概念. 定义7.1.2 称k / 1 +. +m +p为主成分Zk的贡献率;又称 fm=1 +2 +. +m/ 1 +2 +. +m +p为 主成分Z1,Zm(mp)的累计贡献率. 通常取m,使累计贡献率达到70

    14、%或80%以上,累计贡献率的大小表达m个主成分提取了X1, ,Xp的多少信息,但它没有表达某个变量被提取了多少信息,为此又引入另一个概念.定义7.1.3 前m个主成分Z1,Zm 对原变量Xi的贡献率i(m) 定义为 Xi 与Z1, ,Zm 的相关关系数的平方,它等于例7.1.1 设随机向量X=(X1,X2,X3)的协差阵为= 试求X的主成分及其对变量Xi的贡献率i(i=1,2,3). 解:的特征值为1=3+ 81/2, 2=2, 3=3-81/2.由相应标准化特征向量可得出主成分: Z1=0.383 X1-0.924X2 , Z2= X3 (X3本身就是一个主分量,它与X1,X2不相关),Z3

    15、=0.924X1+0.383 X2.当取m=1或m=2时,主成分对X的贡献率可达72.8%或97.85%.下表 列出m个主分量对变量Xi的贡献 标准化变量的主成分及性质在实际问题中,不同的变量往往有不同的量纲,而通过来求主成分首先优先照顾方差(ii)大的变量,有时会造成很不合理的结果,为了消除由于量纲的不同可能带来的一些不合理的影响,常采用将变量标准化的方法.即令 标准化后的随机向量X*=(X1*,X2*, Xp*)的协差阵*就是原随机向量X的相关阵R.从相关阵R出发来求主成分,记为Z *=(Z1*,Zp*),则Z*与Z具有相似的性质. 把主成分Zk*(k=1,p)对变量Xi*的因子负荷量ik

    16、=(Zk*,Xi*)列成表7.27.2 样本的主成分在实际问题中,一般协差阵未知,需要通过样本来估计.设X(t)=(xt1,xtp)(t=1, ,n)为来自总体X的样本,记样本资料阵 X= = 记样本协差阵为S,样本相关阵为R,并用S作为 的估计或用R作为总体相关阵的估计.样本主成分及其性质假定每个变量的观测数据都已标准化(X=0),这时样本协差阵就是样本相关阵R, 且 R=S=离差阵 /(n-1) =XX/(n-1) 仍记R 阵的p个主成分为Z1,Zp , 12p0为R的特征根, a1,a2, ,ap为相应的标准化特征向量(记正交阵A=(a1,ap) ).显然第i个样本主成分为 Zi=aiX

    17、 (i=1,p). 将第t个样品X(t) =(xt1, xtp)的值代入Zi得样品t的第i个主成分得分 zti =aiX(t) (i=1,p).记Z(t) = (zt1, zt2 , ztp) (t=1,n) = (a1X(t) ,a2X(t) ,apX(t) ) = AX(t)称Z(t) 为第t个样品的主成分得分向量.表7.3 原始数据和样本主成分得分令样本主成分得分阵Z和原始数据阵X有如下关系:Z = Z(1) =X(1) A或 X = ZA , 其中 Z(t) =AX(t) ( t=1,2,n )样本主成分得分具有如下一些性质.(1) Z=(Z(1)+ Z(2)+ Z(n)/n =(AX

    18、(1) +AX(2) + AX(n) )/n=AX=0,以下由样本主成分得分的协差阵来得出样本主成分的性质(1)的另一结论.样本主成分得分的协差阵为 SZ = ZZ/(n-1)标准化变量的样本协差阵就是样本相关阵R,且 R = XX/(n-1) R阵的p个特征根12 p 相应的标准化特征向量为a1,a2, ,ap 。记正交阵A= (a1,ap) .则有ARA=diag(1,2 ,p)又知 Z=XA,则SZ = ZZ/(n-1)=AXXA /(n-1) = ARA=diag(1,2 ,p) = ZZ= (n-1) zi zi=(n-1) i (i=1,2,p) zizj=0 (当ij 时 )上式

    19、说明样本主成分得分的样本均值为0,样本协差阵为对角阵.当ij 时,第i个主成分得分向量zi与第j个主成分得分zj是相互正交(2)因 ARA=diag(1,2 ,p)称k /p为样本主成分Zk的贡献率;又称 fm=1+m/p为样本主成分Z1,Zm (mp)的累计贡献率. (3)样本主成分具有使残差平方和最小的优良性 如果我们只取前m个主成分(mp),并考虑用前m 个主成分Z1, Zm的线性组合表示Xj的回归方程: Xj=bj1Z1+ bjmZm+ j (j=1,p) (*) 则当bjk=ajk(k=1,m)时,可使回归方程的残差平方和达最小值.而且回归方程的决定系数R2(j) =j(m). 我们

    20、把j(m)称为m个主成分对原变量Xj的贡献率,j(m)的大小反映了m个主成分能够反映Xj的变差的比例. 把表7.3给出的原始变量的观测数据和前m个主成分的得分数据作为以上模型(*)中因变量X1,X p和自变量Z1,Zm的观测数据.问题化为:按最小二乘准则求参数矩阵B: ,使得残差平方和Q(B)达最小.记则多对多的回归模型(*)的矩阵形式为: X = Z* B + E由多因变量的回归分析(参见第四章)的理论知:参数矩阵B的最小二乘估计为 B = (Z* Z* )-1 Z* X 记A*= (a1,am) , A2= (am+1,aP)则由Z = ( Z*|Z2 ) =XA=X (A*|A2 ) 可

    21、得 Z* =XA*且因 A*RA*=diag(1,2 ,m),于是 Z* Z* = A*XXA* =(n-1)A*RA* =(n-1)diag(1,2 ,m)即当 B=A* 或 bjk=ajk(j =1,2,p;k=1,m)时,可使回归的残差平方和达最小值.而Xj 回归方程的决定系数 R2(j) =j(m) (j=1,2,p).主成分的个数及解释主成分分析的目的之一是简化数据结构,用尽可能少的主成分Z1, Zm(mp)代替原来的p个变量,这样就把p个变量的n次观测数据简化为m个主成分的得分数据.在这里要求: m个主成分所反映的信息与原来p个变量提供的信息差不多; m个主成分又能对资料所具有的意

    22、义进行解释. 主成分个数的确定主成分的个数m如何选取是实际工作者关心的问题.关于主成分的个数如何确定,常用的标准有两个: (1) 按累计贡献率达到一定程度(如70%或80%以上)来确定m; (2) 先计算S或R的p个特征根的均值,取大于的特征根个数m. 当p=20 时,大量实践表明,第一个标准容易取太多的主成分,而第二个标准容易取太少的主成分,故最好将两者给合起来应用,同时要考虑m个主成分对Xi的贡献率i(m). 应用例子7.2.1例7.2.1 学生身体各指标的主成分分析.随机抽取30名某年级中学生,测量其身高(X1)、体重(X2)、胸围(X3)和坐高(X4),数据见书中P277表7.4(或以

    23、下SAS程序的数据行). 试对中学生身体指标数据做主成分分析. 解 (1) 以下SAS程序首先生成包括30名学生身体指标数据的SAS数据集d721(其中变量NUMBER记录识别学生的序号),然后调用SAS/STA软件中的PRINCOMP过程进行主成分分析.例7.2.1的sas程序 Data d721; input number x1-x4 ; 行指针控指示读完该行数据行后再跳到下一行。cards;1 148 41 72 78 2 139 34 71 763 160 49 77 86 4 149 36 67 79.27 144 36 68 76 28 141 30 67 7629 139 32

    24、68 73 30 148 38 70 78; 该选项主成分的前缀名字为zproc princomp data=d721 prefix=z out=o721 ; var x1-x4;run;proc plot data=o721; plot z2*z1 $ number=*; 绘制前二个主成分得分的散点图.作图符号为*,并在每散点旁边加上序号,以便识别各个观测.run;proc sort data=o721; 把输出集o721按第一主成分z1的得分值从小 到大排序by z1;run;proc print data=o721; var number z1 z2 x1-x4; 输出排序后的数据集o7

    25、21run;例7.2.1的输出结果学生身体指标数据的描述统计量和相关阵输出7.2.1 相关阵的特征值和特征向量例7.2.1的结果分析PRINCOMP过程由相关阵出发进行主成分分析.由输出7.2.1中相关阵的特征值可以看出,第一主成分的贡献率已高达88.53%;且前二个主成分的累计贡献率已达96.36%.因此只须用两个主成分就能很好地概括这组数据. 另由第三和四个特征值近似为0,可以得出这4个标准化后的身体指标变量(Xi*,i=1,2,3,4)有近似的线性关系(即所谓共线性),如 0.505747 X1* -0.690844 X2* +0.461488 X3* -0.232343 X4*c(常数

    26、).由最大的两个特征值对应的特征向量可以写出第一和第二主成分: Z1=0.4970 X1*+0.5146 X2*+0.4809 X3* +0.5069 X4* Z2= -0.5432 X1* +0.2102 X2* +0.7246 X3* - 0.3683 X4* 第一和第二主成分都是标准化后变量Xi* (i=1,2,3,4)的线性组合,且组合系数就是特征向量的分量. 利用特征向量各分量的值可以对各主成分进行解释. 第一大特征值对应的第一个特征向量的各个分量值均在0.5附近,且都是正值,它反映学生身材的魁梧程度.身体高大的学生,他的4个部位的尺寸都比较大;而身体矮小的学生,他的4个部位的尺寸都

    27、比较小.因此我们称第一主成分为大小因子. 第二大特征值对应的特征向量中第一(即身高X1的系数)和第四个分量(即坐高X4的系数)为负值,而第二(即体重X2的系数)和第三个分量(即胸围X3的系数)为正值,它反映学生的胖瘦情况,故称第二主成分为胖瘦因子. 输出7.2.2 第二主成分得分对第一主成分得分的散布图输出7.2.2是PLOT过程产生的输出图形,从图中可以直观地看出,按学生的身体指标尺寸,这30名学生大约应分成三组(以第一主成分得分值为-1和2为分界点). 每一组包括哪几名学生由每个散点旁边的序号可以得知.更详细的信息可从PRINT过程产生的输出数据列表中得到. 按第一主成分得分排序后的主成分

    28、得分和原始数据以上输出列表中把30个观测按第一主成分从小到大重新排序后的输出结果.从这里可以得到分为三组时各组学生的更多的信息如下: G1=11,15,29,10,28,6,24,14,2,27,18 G2=4,30,22,1,16,26,23,21,8,9,7,17 G3=20,13,19,12,5,3,25若考虑用Z1 ,Z2进行聚类,这就是主成分聚类方法.以下不作要求7.3主成分分析的应用主成分分析方法把p维数据简化为m(mp)维数据后,进一步地可用于变量的分类,样品的分类,对样品进行排序或对系统进行评估,以及主成分回归,主成分聚类,多维正态数据的主成分检验等方面。 设n次观测数据阵X已

    29、标准化,这时样本协差阵就是样本相关阵R, R的特征值为12 p 相应的标准化特征向量为a1,a2, ,ap 。样本主成分为 Zi=aiX (i=1,p). 设m为满足累计贡献率P0(一般取1P00.7 )的最小正整数,取前m个主成分Z1 ,Z2 , ,Zm,由样本观测数据X(i) (i=1,2,n)可求得m个主成分的得分值zij : 利用样本主成分的性质(3),Xk由前m个主成分Z1 ,Z2 , ,Zm的最佳(残差平方和最小)表示式为 把Z*(i )(i=1,2,n)代入上式,可得由此可得出由主成分得分值估计变量Xk的得分向量.记 其中 (7.3.2)X=ZA= ( Z*|Z2 ) ( A*|A2 ) = Z* (A*) + Z2 A2 =X* + Z2 A2 因所以,当选取合适的m,可使得后面的p-m个i的和很小,这时就有 指标(变量)分类如果第i个变量和第j个变量的相关系数rij1,显然这两个变量应归为一 类. 仍用Xi和Xj表示这两个变量的


    注意事项

    本文(第七章 主成分分析.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开