SPSS软件中对应分析Word格式.docx
- 文档编号:5167260
- 上传时间:2023-05-04
- 格式:DOCX
- 页数:12
- 大小:71.03KB
SPSS软件中对应分析Word格式.docx
《SPSS软件中对应分析Word格式.docx》由会员分享,可在线阅读,更多相关《SPSS软件中对应分析Word格式.docx(12页珍藏版)》请在冰点文库上搜索。
总惯量:
根据上面的准备,可以给出行剖面集合n(r)的总惯量的定义:
由
(1)式定义的n个点与其重心的欧式距离之和称为行剖面集合n(r)的总惯量,记为11。
注意:
(1)总惯量类似方差,反映差异信息。
2
(2)经过数学分解,我们可以得知,总惯量与统计量
仅相差一个常数,而由前面列联表的分析我们知道,2统计量
反映了列联表横栏与纵栏的相关关系。
对应分析就是在总惯量信息损失最小的前提下,简化数据结构以反映两属性变量之间的相关关系。
实际上,总惯量的概念
类似于主成分分析或因子分析中方差总和的概念。
在SPSS软件中进行对应分析,系统会给出对总惯量的提取情况。
完全对应的,我们对列进行相应分析,可以得到列剖面集
SPSS中有一个概念:
惯量:
相当于因子分析中的特征根,用于说明对应分析各个维度的结果能够解释列联表中两变量联系的程度。
对应分析基本理论:
经过上述变化后,就可以直接计算属性变量各个状态之间的距离,通过距离大小反映各个状态之间的接近程度,同类型的状态
之间距离应当较短,而不同类型的状态之间距离应当较长,据此可以对各个状态之间进行分类以简化数据结构。
但是,这样做不
能对两个属性变量同时进行分析。
因此,我们不计算距离,代之求协方差矩阵,进行主成分分析,提取主成分,用主成分所定义的坐标轴作为参照系,对两个变量的各个状态进行分析。
计算行剖面的协方差矩阵厂TZ,列剖面的协方差矩阵
二c=ZZ。
具体分解过程可参考《多元统计分析》,何晓群。
由矩阵的知识可知,zZZ,二c二ZZ有相同的非零特征根。
rUjZZUjjUj,对该式两边左乘矩阵Z,有
即二c(ZUj)「j(ZUj)。
该式表明:
对于因素A降维,投影方向为Ui,U2,…,
对于因素B降维,投影方向为ZUi,ZU2,…,这两个直角坐标重合。
这样,因素A和因素B降维后可以在同一个坐标轴中表示出来,只不过对坐标轴有一个拉伸。
Zr与二c具有相同的非零特征根,而这些特征根正是各
个公因子所解释的方差,或提取的总惯量的份额,即有:
X'
i=1I=1Jo那么变量B的第一主成分、第二主成分…….i=1
直到第r个主成分与变量A的相对应的各个主成分在总方差中所
占的百分比完全相同。
这样就可以用相同的坐标轴同时表示两个属性变量的各个状态,把两个变量的各个状态同时反映在具有相同坐标轴的因子平面上,以直观的反映两个属性变量及各个状态之间的相关关系。
一般情况下,我们取两个,这样就可以在一张二维图上同时画出两个变量的各个状态。
对应分析的优点:
结果直观、简单;
适用于研究较多分类变量;
对应分析的缺点:
不能进行具体联系的检查,本质是一种统计描述方法;
无法自动判断最佳维度数;
分析结果对极端值敏感。
所以数据量不能太少,样本量越大越好。
例题讲解:
这里以较为经典的头发颜色与眼睛颜色的研究案例说明SPSS中
对应分析的实现方法,该数据由Fisher在1940年首次引用。
研
究者收集了苏格兰北部Caithness郡5387名小学生眼睛与头发颜色的数据。
研究者希望直到头发与眼睛的颜色存在何种关联,即
某种头发颜色的人更倾向于何种颜色?
数据见文件hair&
eye。
(1)对数据的初步分析
按照常规方法,采用列联分析,crosstabulation,结论:
存在明显相关关系。
看看从图表方式能否看出具体的关联方式:
graphbar
stacked,然后双击图,options,scalesto100%
利用统计图,做出条图和马赛克图.结果显示:
随着头发颜色有
金色、红色逐渐变为深色、黑色,人群中眼睛颜色为浅色的比例越来越低,而眼睛深色的比例越来越高。
显然,这一信息提示头发颜色和眼睛颜色之间是有关联的。
以上信息是通过对样本直接观察得到的,这种联系是真实存在还
是由抽样误差导致的假象?
这可以通过检验加以证实。
对于两变
量关联问题一般使用2检验来证实。
但是究竟是怎样的联系方
,-2式?
是其中仅某两类中存在联系,还是两两都有联系?
这是检验不能回答的,需要采用更复杂的分析方法才能得到进一步的分析结果,而对应分析就是一个很好的选择。
结果难点讲解:
Summary
Dimension
Singular
Value
Inertia
Chi
Square
Sig.
ProportionofInertia
ConfidenceSingular
Accounted
for
Cumulative
Standard
Deviation
Correlation
1
3
Total
.446
.173
.029
.199
.030
.001
.230
1240.039
.000a
.866
.131
.004
1.000
.996
.012
.013
.274
结果汇总表:
(1)奇异值:
Z矩阵分解过程中产生,他的平方就是inertia.
(2)行变量各类别的分析结果状况
OverviewRowPointsa
头发颜色
Mass
Scorein
Contribution
OfPointtoInertiaof
OfDimensiontoInertiaof
Point
金色红色棕色深色黑色
Active
.270
.053
.397
.258
.022
-.814
-.349
-.063
.881
1.638
-.417
-.116
.500
-.250
-.688
.088
.018
.092
.028
.401
.014
.449
.132
.271
.572
.093
.060
.907
.770
.039
.969
.934
.033
.961
.064
.803
.998
a.Symmetricalnormalization
Mass:
各类别的组成,发色为金色的占总人口的27%
Scoresindimension:
给出各类别在相关维度上的评分。
金色在2
维空间中的坐标值(-0.814,-0.417),依次类推。
然后给出惯量在行变量中的分解情况。
数值越大,说明该类别对惯量的贡献越大。
此处贡献最大的是深色。
Contribution:
首先给出各维度信息量在各类别间的分解情况,本
例中可见第一维度的信息主要被金色、深色和黑色3各类别所携带,意味着,这三个类别在第一维度区分度较好。
同理,在第二维度上金色和棕色区分度较好。
随后给出各类别的信息在各个维度上的分布比例。
如金色的总信息量中90.7%分布在第一维度,
只有9.3%分布在第二维度。
最后一栏是信息量之和
RowandColumnPoints
SymmetricalNormalization
2.0
I
1.旷
F,巨
0.0
Dimension1
(3)图中,红色离原点太近,说明两个维度上对红色的信息提取不够,我们只能说明头发颜色金色和眼睛颜色深色、浅色关系较强。
所以我们选择3个维度进行分析。
林色
益色o
2.0-1
1.5'
1.0-
Hfe
O
0.5-
o.o-
-0.5
-041TTrT
■1.0-050.0051.01.52.0
Dimensian1
从图形可以看出,红色离其它颜色都较远,无法作出合理判断。
说明我们选取两个维度分析就足够了。
实际上对于对应分析而言,所有信息主要反映在图中,因此多数分析报告均只使用图进行描述。
进一步分析:
当参与对应分析的变量其类别间可能存在某种内在的次序关系
时,分析者往往希望在表格中直接观察到这种次序。
对应分析可
以提供这种输出。
由于各个类别在各个维度上已经算出相应的坐标值,因此只需要将各个类别按照坐标值从小到大排列即可。
选项:
statistic,permutations
CorrespondenceTable
眼睛颜色
深色
棕色
蓝色
浅色
ActiveMargin
金色
98
343
326
688
1455
红色
48
84
38
116
286
403
909
241
584
2137
681
412
110
188
1391
黑色
85
26
4
118
1315
1774
718
1580
5387
对比
PermutedCorrespondenceTableAccordingtoDimension1
我们发现:
眼睛颜色和头发颜色都是按照坐标值(降维后)从小到大进行排列。
更为重要的是:
表格中的频数会集中在主对角线上,使得对应关系比原来清楚。
如现在我们可以立刻发现,头发黑色与眼睛深色、棕色有较强关联。
在model模块中,还有很多菜单选项没有给大家讲解。
这些模块主要适用于基于均数的对应分析范围,但个人认为这种方法很不
成熟,效果做出来也不是很理想,所以没有给大家介绍。
有兴趣
的同学可以参考张文彤高级篇。
多重对应分析在前面的分析中,考察的都是一个二维交叉表中行、列变量间各类别的联系情况,我们希望能够同时考察多个分类变量类别取值间的联系。
例如性别、职业、学历等和职务级别之间的关系如何。
显然对应分析也可以解决此类问题,但是简单对应分析只能对两个分类变量进行分析,这里涉及多个分类变量,我们可以进行多重对应分析。
虽然名为多重对应分析,但是这一方法和前述的简单对应分析完全不同。
最突出的部分表现在它的算法和简单对应分析完全不同,它会首先对各个变量进行最优尺度变换,以尽量凸显类别间的差异,然后再按照标准的对应分析算法进行计算。
这使得即使在两变量的情况下,这两个过程的结果也不会完全等价。
不过,主要使用正确,两个结果在解释上是基本一致的。
在SPSS分析菜单下选择降维(DataRedaction擞据消减)后选
择最优尺度算法,该选项下,根据数据集和数据测量尺度不同有三种不同的高级定类分析算法,主要包括:
多重对应分析、分类
(非线性)主成分分析、非线性典型相关分析。
当变量都是多重名义型数据,则自动采用多重对应分析方法;
当某些变量不是多重名义型,则自动采用分类(非线性)主成分分析;
当变量集合多于一个,则采用非线性典型相关分析。
例题数据mcorres.Sav。
变量全部进入analysisvariables模块;
补充变量的含义是如果有哪个变量你并不想作为对应分析的变量,而只是作为附属变量表现在对应图上可以加入。
点击VARIABLES,画图形对应分析练习:
1、请根据以下列联表数据进行对应分析
人数初级(B1)
高级(B2)
中级(B3)
其它职称(B4)
教师(A1)99
34
217
12
科技人员(A2)98
31
149
9
现役军人(A3)49
5
66
行政干部(A4)1299
248
2261
2430
其他人员(A5)171
11
238
69
2、SPSS自带数据voter.sav
1992年美国大选时出现了3位候选人,最终是克林顿击败了老布什和佩罗当选总统,那么不同教育程度的选民其倾向性如何?
变量pres92记录受访者选择了哪位候选人,degree则为受访者的文化程度,
A.试用对应分析考察不同文化程度的选民倾向性;
B.试进行多重对应分析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 软件 对应 分析