1、主成分分析步骤主成分分析步骤以教材第五章习题8的数据为例,演示并说明主成分分析的详细步骤:原始数据的输入輪锹7 视附出 敦据(囚 烷飘D 井瞅 图觀 实用显序 附加内諛Q) 爾口迎 帮肋 B? M *i宙邑並曲 e r 专地区食磊衣看燃料住房交通和通讯娱乐鞍育文化1北京190.33 43,77 9.7360 5449,01 9,042天津135.20 36.40 10 4744.1636.493 943河北95.21 22.839.3022.44 22.81 2.804山西104.78 25.11 6 40 9.89 18.173.255内蒙古128 4127.63 8.94 12.58 23
2、.992 276辽宁145.E8 32.8317.79 27.29 39 .,093.477吉林159 37 33 18.371K8125295 228黒龙江116.22 29.57132413.7621.75 6.049上海221.11 38.64 12.53116.6650.825.8910江苏114.98 29.12 11 6742.6027.30 57411浙江169.92 32 75 12.72 47 1234.355.0012安徽、135.11 23.09 15.62 23 5418 206 3913福耀144.92 21.26169619.52 2175 6.37U江西140.5
3、4 21.50176419.19 15.97 4.9415山东115.84 30.261220 33.60 3377 3.8516河南101J8 23.268 4S20.20 20.504 30注意事项:关键注意设置好数据的类型(数值?字符串?等等)以及小数点后保 留数字的个数即可。选项操作1.打开SPSS的“分析”-“降维”-“因子分析” 打开“因子分析”对话框(如下图)倉品女通和通讯选悻变豪(匚Ita(L)2(R) 取清 眾助3.设置分析的统计量打开最右上角的“描述”对话框,选中“统计量”里面的“原始分析结果”和“相关矩阵”里面的“系数”。(选中原始分析结果, SPSS自动把原始数据标准差
4、标准化,但不显示出来;选中系数,会显示相关系数矩阵。)。然后点击 “继续”。统计星单喪逼椅谨惟(U)0原赠分忻结果相关矩阵 0 貳数 OMN)泵薯惟水平 R(R) 柠列武Q) 反醍數& tiMO和Bartlett的補誓鹰桧验(K)鍵沽 取消 帮動“输出”打开第二个的“抽取”对话框:“方法”里选取“主成分”;“分析”、 和“抽取”这三项都选中各自的第一个选项即可。然后点击“继续”。方液血:主磁辞输出H未箍炜的Ema即石阳鱼分新 -相羌性拒阵3)协方遵症阵3抽职特征值大于(&:O因于的圃定麹(吵 參槌取的因玖D;矗大收皴性电代吹教凶;(25 |取请 即助第三个的“旋转”对话框里,选取默认的也是第一
5、个选项“无”第四个“得分”对话框中,选中“保存为变量”的“回归”;以及“显示因子得 分系数矩阵”。回保存妁喪量(:方法 回归 gertlettCB) nderson-Rubin(A)|叼显示国子魁分系数扼阵( |讎拔|取渭十廉助第五个“选项”对话框,默认即可。这时点击“确定”,进行主成分分析。三分析结果的解读按照SPSS俞出结果的先后顺序逐个介绍1.相关系数矩阵:是6个变量两两之间相关系数大小的方阵。Correlation Matrix食品衣着交通和凋讯娱乐敎育文化Correlation 倉品1 000692.319760.733.556衣着6921 000-.0816S3.902.389燃料
6、.319-.0811.000-.089-.061.267性房.760.603)391.000.831.387交通和通讯738.902-.0518311.00G.326L 娱乐載育丈化.556,399.257387,3261.0002.共同度:给出了这次主成分分析从原始变量中提取的信息,可以看出交通和通讯最 多,而娱乐教育文化损失率最大。CommunalitiesInitialExtraction食品1.000.878衣着1.000.825燃料1.000.841住房1.000.810交通和通讯1.000.919娱乐教育文化1.000.5843.总方差的解释:系统默认方差大于1的为主成分,所以只取
7、前两个,前两个主成分累加占到总方 差的80.939%。并且第一主成分的方差是3.568,第二主成分的方差是1.288。Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %13.56859.47459.4743.56859.47459.47421.28821.46680.9391.28821.46680.9393.60010.00190.9414.3595.
8、97596.9165.1422.37299.2886.043.712100.000Extraction Method: Principal Component Analysis.4.主成分载荷矩阵:Component MatrixComponent12交通和通讯.925.252食品.902.255衣着.880.224住房.878.195娱乐教育文化.588.488燃料.093.912应该特别注意:这个主成分载荷矩阵并不是主成分的特征向量,也就是说并不是主成分 1和主成分2的系数,主成分系数的求法是:各自主成分载荷向量除以各自主成分特 征值的算术平方根。那么第1主成分的各个系数是向量(0.925
9、, 0.902, 0.880, 0.878,0.588, 0.093)除以.3.568 后得到,即(0.490, 0.478, 0.466, 0.465, 0.311,0.049)(这才是主成分1的特征向量,满足条件:系数的平方和等于1),分别乘以6个原始 变量标准化之后的变量即为第1主成分的函数表达式:策=0.490* Z交 0.478* Z食 0.466* Z衣 0.465* Z住 0.311* Z娱 0.049* Z燃同理可以求出第2主成分的函数表达式。(同学们自己求解!)5.主成分得分系数矩阵Component Score Coefficient MatrixComponent12食品
10、.253.198衣着.247.174燃料.026.708住房.246.152交通和通讯.259.196娱乐教育文化.165.379该矩阵是主成分载荷矩阵除以各自的方差得来的, 实际上是因子分析中各个 因子的系数,在主成分分析中可以不考虑它。6.因子得分在步骤二中,第四个“得分”对话框中,我们选中“保存为变量”的“回归”; 以及“显示因子得分系数矩阵”。SPSS的输出结果和原始数据一起显示在数据 窗口里面:习Ms. 8-sav I数据集刀-SPSS Statist让M数据编辑器佝B 輛笹(自视图型 SfeMQ)诜快分折曲国形程序(丈附加内歆0 窗口醴S S国蓄視i? M遐曲鑒血關色4 忸:耀通和
11、通讯地区食品住房交通和通讯娱乐鞍育 文化FAC1JFAC21北京190.3343.779.7360.5449.019.04 2.04910-0.228702天津135.2036 4010.4744.1636 49 3.94 0,41770.036803河北952122.839 3022.4422.81 2 00-1 03656-1.Q18644Li1047826.116 409.0918 17 3.26-1.03619.31786百内蒙古128.4127.638 9412.5823.99 2 27-0.72782 102736辽宁145.6832 8317.7927.2939.09 3.470
12、 27382 0 456991吉林159.3733.3818.3711.8125.29 5.22 0,09566 1.362738黒龙江116.2229.5713.24137S21 756.04-0.39278 0.470579上海221 11 33.641253115.6550.S2 5.892.35583-0 43334江苏114.9829.1211 6742.6027.30 5.74 -D.05796-0 1965411浙江169.923275 127247.1234.35 5 000 63552-0 04990I135.1123.09 16.6223.5418.206.39-0.437
13、961 29179福建144.9221.2616.9619.5221.756.37-0.377671.65714江西140.5421 50176419,1915.97 4.94-0677551.4TO416山东115 84 30.26122033.6033.77 3 85 -0J1693-0.56951_I河南101 18 23.268 4620.2020.50 4.30 -0.91422 07644817 I特别提醒:后两列的数据是北京等16个地区的因子1和因子2的得分,不是主成分1和主 成分2的得分。主成分的得分是相应的因子得分乘以相应的方差的算术平方根。即:主成分1得分=因子1得分乘以3
14、.568的算术平方根主成分2得分=因子2得分乘以1.288的算术平方根四.主成分的得分:把因子1和因子2的数值分别乘以各自的方差的算术平方根,得出各地区主成 分1和主成分2的得分。:VAROOOOB0地区因千1因于2主战分1主战分2VAR0C1北京2.04910-0.228703.87064-0.259562天津041770-1 036S00.7S900-1.176673河北-1 03856-1,01864-1,96173-1.156064山西J .08619-1.31786-2 05170-1 495645内蒙古-072762-1.1D273-1.37478-1.251496辽宁0.2730
15、20.455990.517220.517517吉林0.095661.362730.180701.546668黒龙江-0.39278047057-0741920 534059上海2 365S3-0 433344 44994-0 4917910江苏-0.05796-0 15654心 0948-0 1776611浙江0.63552-0 049901.20044-0.0566312安甌-0.437961.291794 启27271.46605福建*0.377671.60657-0.713371,0233014江西-0.677551.490B4-1 279831 6919515LU*-0J1693-0
16、56951-0 220870646331B河南-D91422-0 76448-172687-0.86761后两列就是这16个地区主成分1和主成分2的得分。:件编廉迫 视戲也 敬轍 分抗也 圉形念)虫瀚痘埒(U) 耐加内春(Q) 窗口迎(有兴趣的同学可以验证一下:由步骤 3.4推导出来的主成分的函数关系式计 算出来的主成分得分是否与该数据栏的得分一致?)五综合得分及排序:每个地区的综合得分是按照下列公式计算的:Y二0.7348*主成分1得分 0.2652 *主成分2得分按照此公式计算出各地区的综合得分 Y为:甄目 輛痢(目 视图CO 禅快U3 分拆(蛍 国骸(0 蛮用收序口 酣加內积Q) 窗口凹
17、 耳ha E fes-B?鋤和曲目基甜冷堂专VAR00008地区因子1因千2 |Y741北京2.04910-0.22S703.87054-0.259552.7762420.41770-1.03600078900-1.176670.267713河北-1.03856 -1 01364-1.96173订.15606 -1.748074山西-1.03619 -1.31786-2.D5170-1.49564-1,904235內義古-072782 -1.10273-1,37478-1.26149 -1.34209II宁0.273820.4559S0.517220517510.5172970.095661
18、36273OJ80701.54655 0.542938黒龙江-0.392780.47057-0741920.53405 -0.403539上褥2.35583-0.433344.44994-0.49179 3.1393910江苏4D.0579E-0.15564-0.10948-0.17765 -0 1275B11浙江0.63552-0.049901.20044-0.05E63 0 8670612a仰961.29179-0.827271.45605 -0 2190813福建037767 1 60657-0.713371.82330 -0.0406614江西-0.677551 .49084-1.27
19、9831.69195 -0.4917215;山东0.11693-0.56951-0.22087-0.64633-03337016河南OJ1422-076448-1.72687-0.86761-1 4990017按照综合得分丫的大小进行16个地区的排序,结果如下:視宙QD 救槪 桂檢 分尿勾 国形(0) 电用親停辿) 附加曲春窗口腕Y地区因于1因予2主成分1主成分21上海2.35583-0.433344.44994-0.491793.139392北京2.04910-0 228703B7064-0.259662775243淅江163562-0.049901.20044-0.05E630.86708
20、40.095661.362730.180701.546560.542936辽宁0.273820.455990.517220.517510.517296天津0.41770-1.03680078900-1.176670.267711福建-0.377671 60E57-0 713371.3233.040658江苏-0.05796-0 15654-0 109480.17766-0.127969安锻-0.437961.29179-0S27271,46605-0.2190S10山东-0 11693-0.56951-0.220670.64633-G.3337011黒龙江4J.392780.47057-074
21、1920.5340543.4035312江酋3 77551.49084-1.27983r6919544917213内蒙古-072782-1.10273d 37478-1 25149-1.3420914河南.91422-0 76446-1 725870.06761-1.4990015间北-1.03856-1.01864-1.9B173-1.15E06-17480716山西-1.08619-1 317862 0517G-1.49564-1.90423171.如果主成分分析中有n个变量,则特征值(或方差)之和就等于 n。2.特征向量(或主成分的系数)中各个数值的平方和等于 1,否则就不是特征向量,也不是主成分系数。3.步骤3.4中的主成分载荷向量各系数的平方和等于其对应的主成分的方差。在本例中:0.9252 0.9022 0.8802 0.8782 0.5882 0.0932 = 3.5684.SPSS没有专门的主成分分析模块,是在因子分析模块进行的。它只输出主成 分载荷矩阵和因子得分值,而我们最想得到的主成分的系数(特征向量)和 主成分得分则需要另外计算。5.如果计算没有错误,因子1、因子2、主成分1、主成分2和综合得分丫,它 们各自的数值之和都等于0。6.主成分分析应该计算出综合得分并排序。