主成分分析讲解.ppt
- 文档编号:18710465
- 上传时间:2023-10-14
- 格式:PPT
- 页数:43
- 大小:701KB
主成分分析讲解.ppt
《主成分分析讲解.ppt》由会员分享,可在线阅读,更多相关《主成分分析讲解.ppt(43页珍藏版)》请在冰点文库上搜索。
主成分分析,PrincipalComponentAnalysis,2023/10/14,Dept.ofEpidemio&Biostat,SPH,2,统计学研究的核心问题?
没有变异就没有统计学,变异VARIATION,变异性的度量?
方差Variance,2023/10/14,Dept.ofEpidemio&Biostat,SPH,3,方差是什么?
方差是信息多元世界的信息度量多元世界的每个变量的包含信息不同在单个变量方差不变的情况下,各变量相关性越高,则总信息量越小,2023/10/14,Dept.ofEpidemio&Biostat,SPH,4,2023/10/14,Dept.ofEpidemio&Biostat,SPH,5,两组变量:
AB,2023/10/14,Dept.ofEpidemio&Biostat,SPH,6,2023/10/14,Dept.ofEpidemio&Biostat,SPH,7,2023/10/14,Dept.ofEpidemio&Biostat,SPH,8,2023/10/14,Dept.ofEpidemio&Biostat,SPH,9,协方差矩阵,样本的方差-协方差矩阵(variance-covariancematrix)如果有p个观测变量,则样本的协方差矩阵记为,2023/10/14,Dept.ofEpidemio&Biostat,SPH,10,相关矩阵,如果有p个观测变量,其相关阵(correlationmatrix)记为,2023/10/14,Dept.ofEpidemio&Biostat,SPH,11,矩阵的特征值和特征向量,对于方阵A,如存在常数及非零向量x,使Ax=x则为A的一个特征值,x为与对应的矩阵A的特征向量。
n介方阵有n对特征值和特征向量,2023/10/14,Dept.ofEpidemio&Biostat,SPH,12,正交向量(阵)、单位向量,正交向量:
a=(a1,ap),b=(b1,bp)如果ab=a1b1+apbp=0,则称a、b正交单位向量:
向量a=(a1,ap),如果则称a为单位向量正交阵:
n阶方阵A,如果AA=AA=I,则称A为n阶正交阵,其中A的列向量(或行向量)为正交向量,A=A-1,2023/10/14,Dept.ofEpidemio&Biostat,SPH,13,2023/10/14,Dept.ofEpidemio&Biostat,SPH,14,2023/10/14,Dept.ofEpidemio&Biostat,SPH,15,2023/10/14,Dept.ofEpidemio&Biostat,SPH,16,2023/10/14,Dept.ofEpidemio&Biostat,SPH,17,2023/10/14,Dept.ofEpidemio&Biostat,SPH,18,主成分的概念1,设x1,x2,xp为p维随机变量X1,X2,Xp的标准化变换如果其线性组合满足则称C1为第一主成分。
2023/10/14,Dept.ofEpidemio&Biostat,SPH,19,主成分的概念2,若满足则称C2为第二主成分。
类似地,共可得到至多p个主成分。
2023/10/14,Dept.ofEpidemio&Biostat,SPH,20,主成分的性质,主成分C1,C2,Cp具有以下性质:
(1)主成分间互不相关Corr(Ci,Cj)=0ij
(2)组合系数(ai1,ai2,aip)构成的向量为单位向量(3)各主成分的方差是依次递减的,即Var(C1)Var(C2)Var(Cp)(4)总方差不增不减,即Var(C1)+Var(C2)+Var(Cp)=Var(x1)+Var(x2)+Var(xp)=p,2023/10/14,Dept.ofEpidemio&Biostat,SPH,21,主成分的计算1,设R为X1,X2,Xp的相关矩阵,则存在12p0,和正交矩阵A,使其中i为相关矩阵R的第i个特征值(eigenvalue)(ai1ai2aip)则是相关矩阵R的第i个特征值对应的特征向量。
i是第i个主成分的方差,2023/10/14,Dept.ofEpidemio&Biostat,SPH,22,主成分的计算2,记主成分C=(C1C2Cp),则C=Ax即,2023/10/14,Dept.ofEpidemio&Biostat,SPH,23,主成分的计算3,因子模型(全分量模型)表达形式x=AC即矩阵A称载荷矩阵,反映各主成分对原始变量x各分量的贡献大小。
2023/10/14,Dept.ofEpidemio&Biostat,SPH,24,主成分的计算4,因子模型(全分量模型)表达-主成分标准化变换,2023/10/14,Dept.ofEpidemio&Biostat,SPH,25,x=Lc,lij是xj和ci的相关系数SPSS输出的系数矩阵是L矩阵,2023/10/14,Dept.ofEpidemio&Biostat,SPH,26,实例城市男生形态资料数据来自方积乾医学统计学与电脑试验第2版,2023/10/14,Dept.ofEpidemio&Biostat,SPH,27,实例主成分分析结果特征值(方差)及其比例,2023/10/14,Dept.ofEpidemio&Biostat,SPH,28,主成分分析结果L矩阵,注意L矩阵的下标,是列在前,行在后,2023/10/14,Dept.ofEpidemio&Biostat,SPH,29,主成分分析结果L矩阵,注意L矩阵的下标,是列在前,行在后,2023/10/14,Dept.ofEpidemio&Biostat,SPH,30,主成分和原变量的关系,观察L矩阵,由相关系数做出解释主成分未必一定有明确的解释选取有明确解释的主成分做综合指标,主成分得分就是“综合指数”。
2023/10/14,Dept.ofEpidemio&Biostat,SPH,31,实例的标准化第一主成分得分,2023/10/14,Dept.ofEpidemio&Biostat,SPH,32,实例的标准化第一、二主成分得分,2023/10/14,Dept.ofEpidemio&Biostat,SPH,33,主成分数目的保留降维问题,保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比,它标志着前几个主成分概括信息之多寡。
实际上就是看特征值的大小保留多少主成分为宜主要根据实际问题和经验决定,并无严格统计规则。
2023/10/14,Dept.ofEpidemio&Biostat,SPH,34,主成分分析的应用,综合指标的抽取主成分回归解决自变量严重共线性问题主成分判别解决解释变量的共线性问题变量聚类中计算相似系数因子分析,2023/10/14,Dept.ofEpidemio&Biostat,SPH,35,例-主成分回归,22例胎儿受精龄(Y,周)与胎儿外型测量指标:
均数标准差身高(X1,cm)33.059.71头围(X2,cm)23.266.86体重(X3,g)936.9690.3试求由X1、X2、X3推算Y的回归方程,2023/10/14,Dept.ofEpidemio&Biostat,SPH,36,例-主成分回归结果1,直接做多重回归结果,2023/10/14,Dept.ofEpidemio&Biostat,SPH,37,X1、X2、X3与Y的相关阵,2023/10/14,Dept.ofEpidemio&Biostat,SPH,38,主成分分析结果(表中上半部的系数矩阵是矩阵A),2023/10/14,Dept.ofEpidemio&Biostat,SPH,39,主成分回归分析结果,2023/10/14,Dept.ofEpidemio&Biostat,SPH,40,主成分回归分析结果,附:
本例岭回归分析结果,2023/10/14,Dept.ofEpidemio&Biostat,SPH,41,主成分分析应用实例综合指标选取,计算主成分的两种方法如果各变量具有同等尺度对角化相关阵还是协方差阵?
从协方差阵计算主成分的一个特点:
方差大的变量倾向在第一主成分上占有更大的比重(与从相关阵计算比较)。
2023/10/14,Dept.ofEpidemio&Biostat,SPH,42,广州市某年空气污染指标的主成分分析结果,2023/10/14,Dept.ofEpidemio&Biostat,SPH,43,广州市某2个月的空气污染指数,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 讲解
![提示](https://static.bingdoc.com/images/bang_tan.gif)