多元统计分析 期末试题 聚类分析 主成分分析 因子分析.docx
- 文档编号:9648693
- 上传时间:2023-05-20
- 格式:DOCX
- 页数:8
- 大小:22.46KB
多元统计分析 期末试题 聚类分析 主成分分析 因子分析.docx
《多元统计分析 期末试题 聚类分析 主成分分析 因子分析.docx》由会员分享,可在线阅读,更多相关《多元统计分析 期末试题 聚类分析 主成分分析 因子分析.docx(8页珍藏版)》请在冰点文库上搜索。
多元统计分析期末试题聚类分析主成分分析因子分析
多元统计分析(期末试题)聚类分析主成分分析因子分析
2011-2012学年第一学期《多元统计分析》上机考试试卷 班级:
金融工程2009级学号:
2009310283 姓名:
田睿 电脑序号:
考试说明:
1、打开本试卷的WORD文件后,首先将本WORD文档“另存”,将文件名设为你的“学号+姓名”,并在本试卷中再次填好班级、姓名、学号、电脑序号,再根据题目要求将必要的结果复制到件中并进行必要的分析。
考试结束时,提交该WORD文档,请不要提交SPSS的结果文件。
2、考试时间120分钟,16:
00—18:
00。
考试结束后,将本试卷上传至ftp:
//的“多元统计期末考试提交”子目录。
注意,请务必到教师工作台向监考教师确认你的试卷已经上传成功后,再离开教室。
上机操作题:
1、为了从1张心电图的5项不同指标中找出区分健康人、 硬化症患者和冠心病患者这3类人的方法,对3类人分别取容量为n1=11、n2=7、n3=5的3个样本,原始数据见表1。
请对此案例进行判别分析,并回答以下问题:
简述Fisher判别分析的基本原理。
本题中,请分析三组人群在各项指标的取值上是否有显著差异。
请写出贝叶斯判别函数的表达式。
请写出未标准化的Fisher判别函数的表达式。
分析三组人群被错判的情况。
画出表示三组人群的两个Fisher判别式得分的散点图,用不同颜色的符号区别表示 不同的人群。
新测得某人的5项指标值为,请给出其贝叶斯 判别的后验概率值,以及Fisher判别函数的得分值,则他属于哪类?
贝叶斯判别方法的判别准则并不唯一,请说明在SPSS软件中,所输出的Bayes判 别函数的结果是在怎样的假设条件以及准则下计算得到的。
答:
1.Fisher判别分析的基本原理是:
通过投影,用p维变量的少数几个线性组合,来代替原始的p维变量,以达到降维的目的,再根据样品在这些判别函数上的取值,对样品的归属做出判别。
2.SPSS输出表格:
组均值的均等性的检验X1X2X3X4X5Wilks的Lambda.853.598.773.751.701F df122222df22020202020Sig..203.006.076.057.029 看各个总体在均值等指标上除了x1均小于,说明x2到x5之间有显著的差异,而x1的检验值大于,拒绝原假设,说明其总体之间指标差异不大3.SPSS输出表格分类函数系数X1X2X3X4X5(常量)1-.463.091-group2-.401.121-3-.434.365-Fisher的线性判别式函数通过上表写出Bayes判别函数分别为:
F1=-++++F2=-++++F3=-++++ 4.SPSS输出表格:
典型判别式函数系数X1X2X3X4X5(常量)1函数2.110.016-.137.329-.456-.299-.024-.060.710-非标准化系数 F1=-+++F2=-+++ 5.SPSS输出表格分类结果a初始计数group123%1231预测组成员21101.0060.0.03014.0合计1175 a.已对初始分组案例中的%个进行了正确分类。
上图可知,第一组成员全部判断正确;第二组错判为第一组的概率是%;第三组错判成第一组的概率是20%6. SPSS 输出表格 7.某人的5项指标值为 将各样品的自变量值代入上述三个Bayes判别函数:
F1=-++++F2=-++++F3=-++++ 得到:
F1= F2= F3= 两个Fisher判别函数分别为:
F1=-+++F2=-+++ F1=F2= 8.距离判别法虽然简单、便于使用,但是该方法也有它明显的不足之处。
一,把总体等同看待,没有考虑到各总体会以不同的概率出现,也即判别方法与总体各自出现的概率的大小无关。
第二,判别方法与错判之后所造成的损失无关,没有考虑误判之后所造成的损失的差异 因此,我们对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识,得到后验概率分布,各种统计推断都通过后验概率分布来进行,将贝叶斯思想用于判别分析,就得到贝叶斯判别。
2、根据1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费 性支出的八个主要变量数据,见表2,变量如下:
x1:
食品x2:
衣着 x5:
交通和通讯x6:
娱乐教育文化服务x7:
居住 x8:
杂项商品和服务 x3:
家庭设备用品及服务x4:
医疗保健 请说明聚类分析和判别分析的根本区别。
本题中,分别采用系统聚类方法的最短距离法、重心法和离差平方和法对各地区作 聚类分析,给出谱系图。
通过比较不同的方法,你认为哪种方法的结果更好。
根据你的选择,在相应的系统聚类谱系图上表示出划分为三类的结果。
对各类的特征进行解释。
再采用K均值聚类方法,给出分成三类的结果,以及各类的类重心值。
答:
1. 判别分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。
判别分析方法假定组已事先分好,判别新样品应归属哪一组,对组的事先划分有时也可以通过聚类分析得到。
聚类分析:
将分类对象分成若干类,相似的归为同一类,不相似的归为不同的类。
2.最短距离法、重心法和离差平方和法作谱系图 最短距离法下的谱系图 *******************HIERARCHICALCLUSTERANALYSIS*******************
DendrogramusingCompleteLinkage RescaledDistanceClusterCombine CASE 0 5 10 15 20 25LabelNum+---------+---------+---------+---------+---------+ 山西 4-+甘肃 28-+内蒙古 5-+辽宁 6-+黑龙江 8-+-+吉林 7-+|青海 29-++---+宁夏 30-+||河南 16-+-+|陕西 27-+ +---+江苏 10-+-+||云南 25-+|||重庆 22---+||湖北 17-++---+|四川 23-+-+ | 湖南 18-+| +-----------+河北 3-+| | |新疆 31-+-+ | |山东 15-+ | |安徽 12-+-+ | | 贵州 24-++-+ | +-------------------------+江西 14---++-----+ | |福建 13---+-+ | |广西 20---+| | |海南 21-----+ | |西藏 26-----------------------+ |天津 2---+---------+ |浙江 11---+ +---------+ |北京 1-------+-----+ +-------------------------+上海 9-------+ |广东 19-----------------------+ 重心法下的谱系图 *******************HIERARCHICALCLUSTERANALYSIS******************* DendrogramusingCentroidMethod RescaledDistanceClusterCombine CASE 0 5 10 15 20 25LabelNum+---------+---------+---------+---------+---------+ 山西 4-+甘肃 28-+内蒙古 5-+辽宁 6-+黑龙江 8-+吉林 7-+青海 29-+-+宁夏 30-+|河北 3-+|新疆 31-+|河南 16---+安徽 12---+贵州 24---+陕西 27---+-+湖北 17-+||四川 23-+-+|湖南 18-++---+江苏 10-----+|云南 25-----++-+重庆 22-----+||山东 15-----+|+-+福建 13-----+---+|| 广西 20-----+ |+-------------------+ 江西 14-----------+| +---------------+海南 21-------------+ | |西藏 26---------------------------------+ |天津 2-----------+-------+ |浙江 11-----------+ +-------------------+ |北京 1-------------------+ +---------+上海 9-------------------+ |广东 19---------------------------------------+ 离差平方和法下的谱系图 *******************HIERARCHICALCLUSTERANALYSIS******************* DendrogramusingWardMethod RescaledDistanceClusterCombine CASE 0 5 10 15 20 25LabelNum+---------+---------+---------+---------+---------+ 山西 4-+甘肃 28-+内蒙古 5-+-+青海 29-+|宁夏 30-+|辽宁 6-+|黑龙江 8-++-----+吉林 7-+| |安徽 12-+| |贵州 24-+| |河南 16-+-+ |陕西 27-+ |江西 14-+ | 福建 13-+ +---------------------------------------+广西 20-+---+| |海南 21-+|| |湖北 17-+|| |四川 23-++-+| |湖南 18-+-+||| |河北 3-+|||| |新疆 31-+|||| |山东 15-++-++-+ |江苏 10-+|| |云南 25-+|| |重庆 22-+-+| |天津 2-+ | |西藏 26-------+ |北京 1-+-+ |浙江 11-++---+ |上海 9---++-----------------------------------------+广东 19-------+ 3离差平方和的方法较好 4 *******************HIERARCHICALCLUSTERANA LYSIS******************* DendrogramusingWardMethod RescaledDistanceClusterCombine CASE 0 5 10 15 20 25LabelNum+---------+---------+---------+---------+---------+ 山西 4-+甘肃 28-+内蒙古 5-+-+青海 29-+|宁夏 30-+|辽宁 6-+|黑龙江 8-++-----+吉林 7-+| |安徽 12-+| |贵州 24-+| |河南 16-+-+ |陕西 27-+ |江西 14-+ | 福建 13-+ +---------------------------------------+广西 20-+---+| |海南 21-+|| |湖北 17-+|| |四川 23-++-+| |湖南 18-+-+||| |河北 3-+|||| |新疆 31-+|||| |山东 15-++-++-+ |江苏 10-+|| |云南 25-+|| |重庆 22-+-+| |天津 2-+ | |西藏 26-------+ |北京 1-+-+ |浙江 11-++---+ |上海 9---++-----------------------------------------+广东 19-------+ 第一类为西藏、海南、广西、福建、湖南、四川、湖北、山东、新疆、河北、 重庆、天津、云南、江苏 第二类为江西、陕西、河南、贵州、安徽、宁夏、吉林、黑龙江、辽宁、内蒙古、山西、甘肃 第三类为广东、上海、浙江、北京 5.根据上面的分类,可以看出:
第一类为经济和居民生活欠发达的地区第二类为经济和居民生活较为发达的地区第三类为经济和居民生活的发达地区6,根据SPSS 聚类成员案例号123456789101112131415161718192021地区北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南湖北湖南广东广西海南聚类123333331223233333133距离
22232425262728293031重庆四川贵州云南西藏陕西甘肃青海宁夏新疆2332233333 根据上面两个表格可知:
K均值聚类分成的三类:
第一类为北京、上海、广东 第二类为天津、江苏、浙江、福建、重庆、云南、西藏 第三类为江西、陕西、河南、贵州、安徽、宁夏、吉林、黑龙江、辽宁、内蒙古、 山西、甘肃、河北、江西、山东、湖南、湖北、四川、广西、海南、宁夏、云南、贵州、青海 7. 最终聚类中心食品衣着家庭设备用品及服务医疗保健交通和通讯娱乐教育文化服务居住杂项商品和服务1 聚类2 3 3、收集了某市工业部门13个行业的6项经济指标如下所列,原始数据见表3。
X1:
年末固定资产净值,单位:
万元;X2:
职工人数,单位:
人;X3:
工业总产值,单位:
万元;X4:
全员劳动生产率,单位:
元/人年;X5:
百元固定资产原值实现产值,单位:
元;X6:
资金利税率,单位:
%; 请对此案例进行因子分析,并回答以下问题:
请简要说明因子分析的目的。
在什么情况下因子分析将失效?
本题中,按照特征值大于1的标准,应提取几个因子?
所提取的因子对原数据表的 解释精度达到多少?
给出各变量的共同度。
在因子分析中,共同度是用来反应什么的指标?
分别给出因子旋转前和旋转后的因子载荷矩阵。
在因子分析中进行因子旋转的目的 是什么?
分别写出旋转后的因子分析模型表达式和计算因子得分的表达式。
根据所得到的因子分析模型解释各因子的含义。
对13个行业进行综合评价,给出综合排名的结果。
答:
1. 因子分析(factoranalysis)和主成分分析的目的是一样的,即:
将具有相关关系的多个变量综合为数量较少的几个因子,从而实现数据降维。
2.解释的总方差初始特征值成份1234合计.437.109方差的% 累积% 合计提取平方和载入方差的%累积%合计旋转平方和载入方差的%累积% 56.035.004.586.058 提取方法:
主成份分析。
图可知可提取两个因子,精度达到 3.因子方差初始提取年末固定资产净值职工人数工业总产值全员劳动生产率百元固定资产原值实现产值资金利税率提取方法:
主成份分析。
共同度描述了全部公共因子对变量的总方差所做的贡献,反映了公共因子对该变量的影响程度。
也反映了变量对全部公共因子的共同依赖程度。
4. 成份矩阵a年末固定资产净值职工人数工业总产值全员劳动生产率百元固定资产原值实现产值资金利税率提取方法:
主成分分析法。
a.已提取了2个成份。
1成份2.275.238.445.871.742.868.947.937.894-.171-.492-.422 成份矩阵a成份12年末固定资产净值.职工人数.工业总产值.全员劳动生产率-.百元固定资产原值实现产值-.资金利税率-.提取方法:
主成分分析法。
a.已提取了2个成份。
旋转后的矩阵:
旋转成份矩阵a成份12年末固定资产净值.职工人数.工业总产值.全员劳动生产率.百元固定资产原值实现产值-.资金利税率-.提取方法:
主成分分析法。
旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在3次迭代后收敛。
旋转的目的是:
当有些公共因子对多个变量都有较明显的影响作用。
这时因子模型不利于突出主要矛盾和矛盾的主要方面,也很难对因子的实际背景进行合理的解释。
这时通过因子旋转可以使它仅在一个公共因子上载荷较大,其余的载荷较小,有利于突出每个公共因子和其载荷较大的变量的联系,显示公共因子的主要性质。
5.旋旋转成份矩阵a年末固定资产净值职工人数工业总产值全员劳动生产率百元固定资产原值实现产值资金利税率提取方法:
主成分分析法。
1成份2-.086-.117.091.874.870.962.982.960.994.156-.190-.080旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在3次迭代后收敛。
转后的因子分析模型表达式和计算因子得分的表达式。
X1===+=+=-+=-+ 成份得分系数矩阵年末固定资产净值职工人数工业总产值全员劳动生产率百元固定资产原值实现产值1成份2-.006-.019.066.360.348.334.325.343.079-.040资金利税率提取方法:
主成分分析法。
.001.389旋转法:
具有Kaiser标准化的正交旋转法。
构成得分。
成份得分系数矩阵成份12年末固定资产净值.职工人数.工业总产值.全员劳动生产率.百元固定资产原值实现产值-.资金利税率.提取方法:
主成分分析法。
旋转法:
具有Kaiser标准化的正交旋转法。
构成得分。
计 算 因 子 得 分 的 表 达 式 :
F1=++++=-++++6.旋转成份矩阵a年末固定资产净值职工人数工业总产值全员劳动生产率百元固定资产原值实现产值资金利税率提取方法:
主成分分析法。
1成份2-.086-.117.091.874.870.962.982.960.994.156-.190-.080旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在3次迭代后收敛。
.旋转成份矩阵a成份12年末固定资产净值.职工人数.工业总产值.全员劳动生产率.百元固定资产原值实现产值-.资金利税率-.提取方法:
主成分分析法。
旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在3次迭代后收敛。
显然,F1和年末固定资产净值、职工人数、工业总产值相关性较高,因此可解释为生产规模指标,决定工厂的生产规模 F2和全员劳动生产率、百元固定资产原值实现产值、资
金利税率相关性较高,因此可解释为生产效率指标,决定生产效率。
7. 加权平均综合得分=/积累贡献 ----- --- 通过excel计算十三个行业的得分如上,所以排名如下:
机器食品化学纺织缝纫冶金造纸森工文教皮革建材电力煤炭 4、对35个管理类期刊进行分类评估,选取了如下4项指标,原始数据见表4。
X1:
被引次数X2:
载文量X3:
引证期刊 X4:
标注“国家自然科学基金项目” 下面采用因子分析和聚类分析相结合的方法对35个期刊进行分类评估。
首先,采用因子分析方法,按照特征值大于1的标准,对数据表进行降维处理。
给 出旋转后的因子载荷矩阵和因子载荷图,并解释因子的含义。
第二步,计算因子得分,根据35个期刊的因子得分值对它们进行K均值聚类,给出聚类结果。
第三步,画出表示各类期刊的两个因子得分的散点图,用不同颜色的符号区别表示 不同的类。
根据散点图上各类期刊的散布位置以及对因子含义的理解,分析各类 期刊的差异特征。
1.旋转成份矩阵a被引次数载文量引证期刊标注基金1成份2.063.953-.147.316.782-.017.827.477提取方法:
主成分分析法。
旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在3次迭代后收敛。
因子1和被引次数、引证期刊、标注基金相关性较高,因为期刊质量好,高级期刊基金引用,所以因子1可以被解释为内容质量 因子2和载文量相关性较高,可以被解释为内容数量的大小 2.用聚类分析 聚类成员案例号123期刊
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元统计分析 期末试题 聚类分析 主成分分析 因子分析 多元 统计分析 期末 试题 成分 分析