主成分分析步骤.docx
- 文档编号:16744450
- 上传时间:2023-07-17
- 格式:DOCX
- 页数:16
- 大小:394.67KB
主成分分析步骤.docx
《主成分分析步骤.docx》由会员分享,可在线阅读,更多相关《主成分分析步骤.docx(16页珍藏版)》请在冰点文库上搜索。
主成分分析步骤
主成分分析步骤
以教材第五章习题8的数据为例,演示并说明主成分分析的详细步骤:
•原始数据的输入
輪锹7视附出敦据(囚烷飘D井瞅①图觀◎实用显序◎附加内諛Q)爾口迎帮肋
®B?
M*i宙邑並曲 地区 食磊 衣看 燃料 住房 交通和通讯 娱乐鞍育文化 1 北京 190.3343,779.73 6054 49,019,04 2 天津 135.2036.401047 44.16 36.49 394 3 河北 95.2122.83 9.30 22.4422.812.80 4 山西 104.7825.116409.8918.17 3.25 5 内蒙古 12841 27.638.9412.5823.99 227 6 辽宁 145.E832.83 17.7927.2939.,09 3.47 7 吉林 1593733^ 18.37 1K81 2529 522 8 黒龙江 116.2229.57 1324 13.76 21.756.04 9 上海 221.1138.6412.53 116.66 50.82 5.89 10 江苏 114.9829.121167 42.60 27.30574 11 浙江 169.92327512.724712 34.35 5.00 12 安徽、 135.1123.0915.622354 1820 639 13 福耀 144.9221.26 1696 19.5221756.37 U 江西 140.5421.50 1764 19.1915.974.94 15 山东 115.8430.26 122033.6033773.85 16 河南 101J823.26 84S 20.2020.50 430 注意事项: 关键注意设置好数据的类型(数值? 字符串? 等等)以及小数点后保留数字的个数即可。 •选项操作 1.打开SPSS的“分析”-“降维”-“因子分析”打开“因子分析”对话框(如下图) 倉品 女通和通讯 选悻变豪(匚I ta(L) £2(R)取清眾助 3.设置分析的统计量 打开最右上角的“描述”对话框,选中“统计量”里面的“原始分析结果” 和“相关矩阵”里面的“系数”。 (选中原始分析结果,SPSS自动把原始数据 标准差标准化,但不显示出来;选中系数,会显示相关系数矩阵。 )。 然后点击“继续”。 统计星 □单喪逼椅谨惟(U) 0原赠分忻结果① 相关矩阵 0貳数©□OMN) □泵薯惟水平□R^(R)□柠列武Q)□反醍數& □tiMO和Bartlett的補誓鹰桧验(K) 鍵沽取消帮動 “输出” 打开第二个的“抽取”对话框: “方法”里选取“主成分”;“分析”、和“抽取”这三项都选中各自的第一个选项即可。 然后点击“继续”。 方液血: 主磁辞 输出 H未箍炜的Ema □即石阳鱼] 分新 -相羌性拒阵〔3) 协方遵症阵3 抽职 特征值大于(&: O因于的圃定麹・(吵參槌取的因玖D; 矗大收皴性电代吹教凶;(25| 取请即助 第三个的“旋转”对话框里,选取默认的也是第一个选项“无” 第四个“得分”对话框中,选中“保存为变量”的“回归”;以及“显示因子得分系数矩阵”。 回保存妁喪量(: ④ 「方法 ’■回归gertlettCB)^nderson-Rubin(A) |叼显示国子魁分系数扼阵(①|讎拔』|取渭十廉助 第五个“选项”对话框,默认即可。 这时点击“确定”,进行主成分分析。 三•分析结果的解读 按照SPSS俞出结果的先后顺序逐个介绍 1.相关系数矩阵: 是6个变量两两之间相关系数大小的方阵。 CorrelationMatrix 食品 衣着 交通和凋讯 娱乐敎育文化 Correlation倉品 1000 692 .319 760 .733 .556 衣着 692 1000 -.081 6S3 .902 .389 燃料 .319 -.081 1.000 -.089 -.061 .267 性房 .760 .603 )39 1.000 .831 .387 交通和通讯 738 .902 -.051 831 1.00G .326 L娱乐載育丈化 .556 399 .257 387 326 1.000 2.共同度: 给出了这次主成分分析从原始变量中提取的信息,可以看出交通和通讯最多,而娱乐教育文化损失率最大。 Communalities Initial Extraction 食品 1.000 .878 衣着 1.000 .825 燃料 1.000 .841 住房 1.000 .810 交通和通讯 1.000 .919 娱乐教育文化 1.000 .584 3.总方差的解释: 系统默认方差大于1的为主成分,所以只取前两个,前两个主成分累加占到总方差的80.939%。 并且第一主成分的方差是3.568,第二主成分的方差是1.288。 TotalVarianceExplained Compone nt InitialEigenvalues ExtractionSumsofSquaredLoadings Total %ofVariance Cumulative% Total %ofVariance Cumulative% 1 3.568 59.474 59.474 3.568 59.474 59.474 2 1.288 21.466 80.939 1.288 21.466 80.939 3 .600 10.001 90.941 4 .359 5.975 96.916 5 .142 2.372 99.288 6 .043 .712 100.000 ExtractionMethod: PrincipalComponentAnalysis. 4.主成分载荷矩阵: ComponentMatrix Component 1 2 交通和通讯 .925 .252 食品 .902 .255 衣着 .880 .224 住房 .878 .195 娱乐教育文化 .588 .488 燃料 .093 .912 应该特别注意: 这个主成分载荷矩阵并不是主成分的特征向量,也就是说并不是主成分1和 主成分2的系数,主成分系数的求法是: 各自主成分载荷向量除以各自主成分特征值的算术平方根。 那么第1主成分的各个系数是向量(0.925,0.902,0.880,0.878, 0.588,0.093)除以.3.568后得到,即(0.490,0.478,0.466,0.465,0.311,0.049)(这 才是主成分1的特征向量,满足条件: 系数的平方和等于1),分别乘以6个原始变量标准化之后的变量即为第1主成分的函数表达式: 策=0.490*Z交0.478*Z食0.466*Z衣0.465*Z住0.311*Z娱0.049*Z燃 同理可以求出第2主成分的函数表达式。 (同学们自己求解! ) 5.主成分得分系数矩阵 ComponentScoreCoefficientMatrix Component 1 2 食品 .253 .198 衣着 .247 .174 燃料 .026 .708 住房 .246 .152 交通和通讯 .259 .196 娱乐教育文化 .165 .379 该矩阵是主成分载荷矩阵除以各自的方差得来的,实际上是因子分析中各个因子的系数,在主成分分析中可以不考虑它。 6.因子得分 在步骤二中,第四个“得分”对话框中,我们选中“保存为变量”的“回归”;以及“显示因子得分系数矩阵”。 SPSS的输出结果和原始数据一起显示在数据窗口里面: ■习Ms.8 -savI 数据集刀-SPSSStatist让M数据编辑器 佝B輛笹(自视图型SfeMQ)诜快①分折曲国形程序(丈附加内歆0窗口醴 SS国蓄視i? M遐曲鑒血 關色〔4忸 : 耀通和通讯 地区 食品 住房 交通和 通讯 娱乐鞍育文化 FAC1J FAC2」 1 北京 190.33 43.77 9.73 60.54 49.01 9.042.04910 -0.22870 2 天津 135.20 3640 10.47 44.16 36493.940,41770 」.03680 3 河北 9521 22.83 930 22.44 22.81200 -103656 -1.Q1864 4 Li® 10478 26.11 640 9.09 18173.26 -1.03619 .31786 百 内蒙古 128.41 27.63 894 12.58 23.99227 -0.7278210273 6 辽宁 145.68 3283 17.79 27.29 39.093.47 027382045699 1 吉林 159.37 33.38 18.37 11.81 25.295.220,095661.36273 8 黒龙江 116.22 29.57 13.24 137S 2175 6.04 -0.392780.47057 9 上海 2211133.64 1253 115.65 50.S25.89 2.35583 -043334 江苏 114.98 29.12 1167 42.60 27.305.74-D.05796 -019654 11 浙江 169.92 32751272 47.12 34.35500 063552 -004990 I 135.11 23.0916.62 23.54 18.20 6.39 -0.43796 129179 福建 144.92 21.26 16.96 19.52 21.75 6.37 -0.37767 1.6^57 14 江西 140.54 2150 1764 19,19 15.974.94 -067755 1.4TO4 16 山东 1158430.26 1220 33.60 33.77385-0J1693 -0.56951 _I 河南 1011823.26 846 20.20 20.504.30-0.91422^076448 17I 特别提醒: 后两列的数据是北京等16个地区的因子1和因子2的得分,不是主成分1和主成分2的得分。 主成分的得分是相应的因子得分乘以相应的方差的算术平方根。 即: 主成分1得分=因子1得分乘以3.568的算术平方根 主成分2得分=因子2得分乘以1.288的算术平方根 四.主成分的得分: 把因子1和因子2的数值分别乘以各自的方差的算术平方根,得出各地区主成分1和主成分2的得分。 : VAROOOOB 0 地区 因千1 因于2 主战分1 主战分2 VAR0C 1 北京 2.04910 -0.22870 3.87064 -0.25956 2 天津 041770 -1036S0 0.7S900 -1.17667 3 河北 -103856 -1,01864 -1,96173 -1.15606 4 山西 J.08619 -1.31786 -205170 -149564 5 内蒙古 -072762 -1.1D273 -1.37478 -1.25149 6 辽宁 0.27302 0.45599 0.51722 0.51751 7 吉林 0.09566 1.36273 0.18070 1.54666 8 黒龙江 -0.39278 047057 -074192 053405 9 上海 2365S3 -043334 444994 -049179 10 江苏 -0.05796 -015654 心0948 -017766 11 浙江 0.63552 -004990 1.20044 -0.05663 12 安甌 -0.43796 1.29179 4启2727 1.46605 福建 *0.37767 1.60657 -0.71337 1,02330 14 江西 -0.67755 1.490B4 -1■27983 169195 15 LU* -0J1693 -056951 -022087 ■064633 1B 河南 -D91422 -076448 -172687 -0.86761 后两列就是这16个地区主成分 1和主成分2 的得分。 : 件编廉迫视戲也敬轍①分抗也圉形念)虫瀚痘埒(U)耐加内春(Q)窗口迎 (有兴趣的同学可以验证一下: 由步骤3.4推导出来的主成分的函数关系式计算出来的主成分得分是否与该数据栏的得分一致? ) 五•综合得分及排序: 每个地区的综合得分是按照下列公式计算的: Y二0.7348*主成分1得分•0.2652*主成分2得分 按照此公式计算出各地区的综合得分Y为: 甄目輛痢(目视图CO禅快U3分拆(蛍国骸(0蛮用收序〔口酣加內积Q)窗口凹耳 haEfes-B? 鋤和曲目基甜冷⑨堂专 VAR00008 地区 因子1 因千2| Y 74 1 北京 2.04910 -0.22S70 3.87054 -0.25955 2.77624 2 0.41770 -1.03600 078900 -1.17667 0.26771 3 河北 -1.03856-101364 -1.96173 订.15606-1.74807 4 山西 -1.03619-1.31786 -2.D5170 -1.49564 -1,90423 5 內義古 -072782-1.10273 -1,37478 -1.26149-1.34209 £ II宁 0.27382 0.4559S 0.51722 051751 0.51729 7 0.09566 136273 OJ8070 1.546550.54293 8 黒龙江 -0.39278 0.47057 -074192 0.53405-0.40353 9 上褥 2.35583 -0.43334 4.44994 -0.491793.13939 10 江苏 4D.0579E -0.15564 -0.10948 -0.17765-01275B 11 浙江 0.63552 -0.04990 1.20044 -0.05E63086706 12 a仰96 1.29179 -0.82727 1.45605-021908 13 福建 037767160657 -0.71337 1.82330-0.04066 14 江西 -0.67755 1..49084 -1.27983 1.69195-0.49172 15 ;山东 0.11693 -0.56951 -0.22087 -0.64633 -033370 16 河南 ■OJ1422 -076448 -1.72687 -0.86761 -149900 17 按照综合得分丫的大小进行16个地区的排序,结果如下: 視宙QD救槪⑼桂檢①分尿勾国形(0)电用親停辿)附加曲春窗口腕 Y 地区 因于1 因予2 主成分1 主成分2 ¥ 1 上海 2.35583 -0.43334 4.44994 -0.49179 3.13939 2 北京 2.04910 -022870 3B7064 -0.25966 277524 3 淅江 163562 -0.04990 1.20044 -0.05E63 0.86708 4 0.09566 1.36273 0.18070 1.54656 0.54293 6 辽宁 0.27382 0.45599 0.51722 0.51751 0.51729 6 天津 0.41770 -1..03680 078900 -1.17667 0.26771 1 福建 -0.37767 160E57 -071337 1.323^] <3.04065 8 江苏 -0.05796 -015654 -010948 ■0.17766 -0.12796 9 安锻- -0.43796 1.29179 -0S2727 1,46605 -0.2190S 10 山东 -011693 -0.56951 -0.22067 ■0.64633 -G.33370 11 黒龙江 4J.39278 0.47057 -074192 0.53405 43.40353 12 江酋 <3£7755 1.49084 -1.27983 r69195 449172 13 内蒙古 -072782 -1.10273 d37478 -125149 -1.34209 14 河南 ■€.91422 -076446 -172587 ■0.06761 -1.49900 15 间北 -1.03856 -1.01864 -1.9B173 -1.15E06 -174807 16 山西 -1.08619 -131786 20517G -1.49564 -1.90423 17 1.如果主成分分析中有n个变量,则特征值(或方差)之和就等于n。 2.特征向量(或主成分的系数)中各个数值的平方和等于1,否则就不是特征 向量,也不是主成分系数。 3.步骤3.4中的主成分载荷向量各系数的平方和等于其对应的主成分的方差。 在本例中: 0.92520.90220.88020.87820.58820.0932=3.568 4.SPSS没有专门的主成分分析模块,是在因子分析模块进行的。 它只输出主成分载荷矩阵和因子得分值,而我们最想得到的主成分的系数(特征向量)和主成分得分则需要另外计算。 5.如果计算没有错误,因子1、因子2、主成分1、主成分2和综合得分丫,它们各自的数值之和都等于0。 6.主成分分析应该计算出综合得分并排序。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 步骤