1、应用多元统计分析习题解答主成分分析主成分分析6.1试述主成分分析的基本思想。答:我们处理的问题多是多指标变量问题, 由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。 当第一个组合不能提取止。这就是主成分分析的基本思想。6.2主成分分析的作用体现在何处?答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。 以各个主成分为分量,就得到一个更低维的随机向量; 主成分分析的作用就是在降低数据 “维数”6.3简述主成分分析中累积贡献率的具体含义。答:主成分分析把P个原始变量X!,X2,L ,Xp的总方差tr(习分解成了 P个
2、相互独立的变量 p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。 这里我们m / Pm( p)个主成分,则称 m k k为主成分Y1,L ,Ym的累计贡献率,累计贡献率k 1 / k 1表明Y丄,Ym综合Xi,X2,L ,Xp的能力。通常取 m,使得累计贡献率达到一个较高的百分数(如85 %以上)。答:这个说法是正确的。即原变量方差之和等于新的变量的方差之和6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵 -出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信
3、息, 对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我计算得_ _ _ Ai = 12, = 8,入a = 4 D(YJ = J = = =B4 D(Y3) = =42扫1212(20-2/I 00-11-*0 V3 000 / o 01830&/3-54褐10V3 -34同理,计算得為=8 时,也=(一2, VI 3)1易知,相互正交单位化向量得, J - - T,=罕=综上所述,第一主成分为=T+; +盜D(VJ=12第二主成分为D(Vt) = 8第三主成分为6.7 设X=(轧禺)的协方差阵(ply:为PP1 p0p1LP证明:一 .一 一.为最
4、大特征根,其对应的主成分为(p- l)p + ff2 1 pffS - pG2 (p - lpo3 + a2 - X o3 1 pa(p l)pa2 + cs2 k pa2(p l)p(Jz + a3 -i pa3 .“ prr30 uafl-p)-A - per3-0 tr=Cl-p)-Xl0 0_ .- -; 为最大特征根当一.一 -;时,P(l-p) P o pa - p) i I ; 1p pffl = aAi/y6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。单位:(亿元)行业名称资产固定资产净产品销利润总计值平均余额售收入总额丿甘*ltt:壬壬口作、|/6917.230
5、32.7683.361.6煤炭开采和选业石油和天然气开采业5675.93926.2717.533877黑色金属矿采选业768.1221.296.513.8有色金属矿采选业622.4248116.421.6非金属矿采选业699.9291.584.96.2其它采矿业1.60.50.30解:令资产总计为X1 ,固定资产净值平均余额为 X2 ,产品销售收入为 X3 ,利润总额为X4 ,用SPSS对这六个行业进行主成分分析的方法如下:1. 在SPSS窗口中选择 Analyze宀Data Reduction 宀Factor菜单项,调出因子分析主界面,并将变量 X! X5移入Variables 框中,其他均
6、保持系统默认选项,单击0K按钮,执行因子分析过程(关于因子分子在 SPSS中实现的详细过程,参见7.7 )。得到如表6.1所示的特征根和方差贡献率表和表 6.2所示的因子载荷阵。第一个因子就可以解释 86.5%表6.1特征根和方差贡献率表駙釋的总方差袖自特征值肓差的码累糕%合计13 46086.499S6.4993.46D86 499884982.53713.43499.9333.002.060999934XOO.007100.000表6.2因子载荷阵应阱葩阵h1x1.947X2.ggg.906X47652.将表6.2中因子载荷阵中的数据输入 SPSS数据编辑窗口,命名为 al。点击菜单项中的
7、Transform Compute ,调出Compute variable 对话框,在对话框中输入等式:z仁al / SQRT(3.46),计算第一个特征向量。点击 0K按钮,即可在数据编辑窗口中得到以z1为变量名的第一特征向量。表6.3特征向量矩阵z1x10.509x20.537x30.530x40.413根据表6.3得主成分的表达式:Y1 0.509X1 0.537X2 0.530X3 0.413X43. 再次使用 Compute 命令,调出 Compute variable 对话框,在对话框中输入等 式:y1 0.509* x1 0.537* x2 0.53* x3 0.413* x4根
8、据六个工业行业计算所的 y1的大小可得石油和天然气开采业的经济效益最好,煤炭开采和选业其次,接着依次是黑色金属、非金属、有色金属和其他采矿业。6.9下表是我国2003年各地区农村居民家庭平均每人主要食品消费量, 试用主成分方法对各主要食品和地区进行分类。地区粮食蔬菜食油猪牛 羊肉家禽蛋类 及其 制品水产 品食糠酒北京134.0592.789.1514.62.1710.134.252.9214.42天津150.269.991011.070.8410.88.350.7210.14河北216.7255.976.597.10.546.362.250.657.29山西218.9180.875.725.3
9、60.246.150.471.152.59内蒙207.370.772.7921.181.413.821.451.3410.77辽宁194.39178.595.916.452.519.594.490.7310.8吉林255.99115.26.2711.423.238.643.60.7513.64黑龙江195.08111.77.627.852.616.263.350.915.09上海189.4476.68.5916.377.47.5116.112.1216.77江苏251.98109.128.2712.054.56.729.091.38.82浙江208.4683.915.8116.426.035.
10、3314.642.1324.15安徽228.3580.976.879.074.275.045.431.4210.61福建198.2799.925.1916.515.143.5513.32.3516.84江西264.8144.228.7713.243.313.55.191.137.31山东229.06118.196.968.092.711.614.01110.81河南236.97100.114.226.481.238.011.351.134.23湖南227.39159.769.419.862.743.868.10.927.29湖北247.21149.448.3517.513.893.286.89
11、1.134.02广东233.75130.226.7322.2710.42.8313.32.163.33广西205.65108.944.9214.447.331.123.571.186.14海南236.3186.615.715.49.771.3114.751.243.88解:令粮食为X1,蔬菜为x2,食油为x3,猪牛羊肉为x4,家禽为x5,蛋类及其制品为x6, 水产品为x7,食糠为x8 ,酒为x9,用SPSS进行主成分分析的具体方法参见 6.8,分析结果如下:表6.4特征根和方差贡献率表驚稈的总启差初始特祁值桿取平打和載入合计合计右弄的務12.92Z3252132.5212.92732.5213
12、2.52122.22024.67157.1192322024.67157 1S231.34414.93672.11281.34414.936721284.8019.90591 03356547 26398.2866.3964.39992 S94T3.72796.4220.222247298 994g1001 105100.000表6.5因子载荷阵咸帕拒阵成123X1002-.920-006X2.093-.477.715X3009.276.E09X478Q-113194x5.872*212-.064x5J12XT57,177130x3.6S4.496.151x9.241735-023表6.6特征
13、向量矩阵z1z2z3x10.001169-0.55035-0.00518x20.054359-0.320140.616746x30.0052610.1852390.697829x40.455914-0.075840.167341x50.509689-0.14229-0.05521x6-0.329080.4080630.269126x70.5009210.1187950.112136x80.3881120.332893-0.13025x90.1408660.4933-0.01984根据表6.6得主成分的表达式:Y1 0.001X1 0.054X2 0.005X3 0.456X4 0.51X5 0
14、.329X6 0.501X7 0.388X8 0.141X9Y2 0.55X1 0.32X2 0.185X3 0.076X4 0.142X 5 0.408X6 0.119X7 0.333X8 0.493X 9Y3 0.005X1 0.617X2 0.698X3 0.167X4 0.055X 5 0.269X6 0.112X7 0.130X8 0.02X9分别计算出以上三项后,利用公式 Y 丫1 丄Y2 -Y3得到综合得分并排序如下表:地区y1y2y3y北京14.92-90.4267.81-10.16天津11.80-93.4854.76-15.31上海24.39-115.4657.85-16.5
15、1福建24.55-129.9368.56-19.17浙江25.14-126.0059.51-19.43辽宁19.55-154.56118.72-19.47黑龙江13.27-131.9076.07-23.38湖南23.53-169.91108.84-24.97广东29.80-167.0688.93-25.29广西19.18-144.8972.06-25.99内蒙15.93-130.4748.84-27.33海南24.93-154.5760.04-29.19山东11.81-152.6481.06-30.09湖北21.71-179.61100.93-30.74安徽14.06-143.1256.46-
16、30.92江苏18.07-164.9376.08-32.51河北7.10-129.8340.94-32.73山西6.20-141.4455.18-34.15吉林14.54-166.9078.26-34.32江西18.74-185.6297.04-34.94河南8.32-156.3666.62-35.93最后的分类可以根据最终得分 Y的值来划分,由于没有给出具体的分类标准,具体分类结果根据各人的主观意愿可以有多种答案。6.10根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据,利用主 成分分析法对这些地区进行分类。解:用SPSS进行主成分分析的具体方法参见 6.8,分析结果如
17、下:表6.7特征根和方差贡献率表初始特征值提取平右和载入舍计方等的册舍计育萍的爲累积确1505856.19950.1995 05856 19950.19922300265518Z7502.026.65102.7503.8149.04191.7804341370495.57552402.7599133361001.10899.4417027.304G17443020.21999J6490030361 00.000表6.8因子载荷阵咸的麓阵.成借12X1.655ina.629.736.316-444丈4.094-.571X5.908-.302戍.894-.419.607.607)ce.383.18
18、0)cg越2-.370表6.6特征向量矩阵z1z2x10.290.47x20.280.48x30.14-0.29x40.31-0.37x50.40-0.20x60.40-0.27x70.310.39x80.390.12x90.39-0.24青岛35237.2714552.4628597.44大连31830.5617629.5327272.03济南25149.7316499.3922372.97福州22734.1616326.9720677.45乌鲁木齐22284.5415284.6820037.59沈阳23184.9912310.2219694.19武汉23909.279770.5619370.75长春21524.9514179.2119166.96成都33808.79-17638.7317294.14太原19445.429809.9916352.45郑州18561.819822.9015756.62兰州16568.9713769.8015670.44海口17666.7011325.7715631.26昆明18494.348579.7215311.75呼和浩特16128.6013359.1015239.59长沙18845.236252.5414802.98石家庄18229.337399.6214752.99西安16764.154871.9712946.76