SPSS操作方法聚类分析报告.docx
- 文档编号:150761
- 上传时间:2023-04-28
- 格式:DOCX
- 页数:20
- 大小:139.86KB
SPSS操作方法聚类分析报告.docx
《SPSS操作方法聚类分析报告.docx》由会员分享,可在线阅读,更多相关《SPSS操作方法聚类分析报告.docx(20页珍藏版)》请在冰点文库上搜索。
SPSS操作方法聚类分析报告
实验指导之一
聚类分析的SPSS操作方法
系统聚类法
实验例城镇居民消费水平通常用下表中的八项指标来描述。
八项指标间存在一定的线性相关。
为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类。
实验数据表2001年30个省。
市,自治区城镇居民月平均消费数据
x1人均粮食支出(元/人)x5人均衣着商品支出(元/人)
x2人均副食支出(元/人)x6人均日用品支出(元/人)
x3人均烟、酒、茶支出(元/人)x7人均燃料支出(元/人)
x4人均其他副食支出(元/人)x8人均非商品支出(元/人)
x1
x2
x3
x4
x5
x6
x7
x8
北京
7.78
48.44
8.00
20.51
22.12
15.73
1.15
16.61
天津
10.85
44.68
7.32
14.51
17.13
12.08
1.26
11.57
河北
9.09
28.12
7.40
9.62
17.26
11.12
2.49
12.65
山西
8.35
23.53
7.51
8.62
17.42
10.00
1.04
11.21
9.25
23.75
6.61
9.19
17.77
10.48
1.72
10.51
辽宁
7.90
39.77
8.49
12.94
19.27
11.05
2.04
13.29
吉林
8.19
30.50
4.72
9.78
16.28
7.60
2.52
10.32
7.73
29.20
5.42
9.43
19.29
8.49
2.52
10.00
上海
8.28
64.34
8.00
22.22
20.06
15.52
0.72
22.89
江
7.21
45.79
7.66
10.36
16.56
12.86
2.25
11.69
浙江
7.68
50.37
11.35
13.30
19.25
14.59
2.75
14.87
安徽
8.14
37.75
9.61
8.49
13.15
9.76
1.28
11.28
福建
10.60
52.41
7.70
9.98
12.53
11.70
2.31
14.69
江西
6.25
35.02
4.72
6.28
10.03
7.15
1.93
10.39
山东
8.82
33.70
7.59
10.98
18.82
14.73
1.78
10.10
河南
9.42
27.93
8.20
8.14
16.17
9.42
1.55
9.76
湖北
8.67
36.05
7.31
7.75
16.67
11.68
2.38
12.88
湖南
6.77
38.69
6.01
8.82
14.79
11.44
1.74
13.23
广东
12.47
76.39
5.52
11.24
14.52
22.00
5.46
25.50
广西
7.27
52.65
3.84
9.16
13.03
15.26
1.98
14.57
海南
13.45
55.85
5.50
7.45
9.55
9.52
2.21
16.30
四川
7.18
40.91
7.32
8.94
17.60
12.75
1.14
14.80
贵州
7.67
35.71
8.04
8.31
15.13
7.76
1.41
13.25
云南
9.98
37.69
7.01
8.94
16.15
11.08
0.83
11.67
西藏
7.94
39.65
20.97
20.82
22.52
12.41
1.75
7.90
陕西
9.41
28.20
5.77
10.80
16.36
11.56
1.53
12.17
甘肃
9.16
27.98
9.01
9.32
15.99
9.10
1.82
11.35
青海
10.06
28.64
10.52
10.05
16.18
8.39
1.96
10.81
宁夏
8.70
28.12
7.21
10.53
19.45
13.30
1.66
11.96
新疆
6.93
29.85
4.54
9.49
16.62
10.65
1.88
13.61
系统聚类法的SPSS操作:
1.从数据编辑窗口点击Analyze→Classify→HierachicalCluster,(见图1)
图1系统聚类法
打开层次聚类法对话如图2。
图2系统聚类法对话框
选择需要进行聚类分析的变量进入Variable框后,在Cluster栏中选择聚类类型,SPSS有两种层次聚类方法:
Cases对样品聚类(Q型;系统默认),
Variable对指标变量聚类(R型),本例选择。
在Display栏中选择默认的输出项。
2.点击Statistics按钮,打开对话框如图3.
图3Statistics对话框
✧Agglomerationschedule输出凝聚状态表(聚类进度表);本例选择。
✧Ploximitymatrix输出个体间的距离矩阵,本例选择。
✧ClusterMembership栏中显示每个观测量被分派到的类。
None不输出。
本例选择。
Simplesolution指定分类数,并输出样本所属类,单一解。
Rengeofsolution指定输出从m到n类的各样本所属类。
多个解。
选好后返回主对话框。
3.单击Method按钮,打开对话框如图4-1.
✧ClusterMethod:
选择聚类方法:
SPSS中提供7种聚类方法,分别是:
类间平均,类平均,最短距离,最长距离,重心法,中值法,最小平方和法。
本例选择类间平均。
✧Measure栏:
对距离的测度方法选择
SPSS中提供了三种类型:
Interval等间距度量的变量(连续型),Counts计数型变量(离散型)和Binary二值变量。
Interval等间隔测度的变量方法包括:
Euclideandistance欧氏距离;
SquaredEuclideandistance欧氏平方距离;
Cosine夹角余弦(R型聚类);
PearsonCorrelation皮尔逊相关系数距离(R型聚类),本例选择此项。
Chebychev契比雪夫距离;
block距离;
Minkowski明氏距离;
Customized用户自定义距离--即变量绝对值的第p次幂之和的第r次根。
p与r由用户指定。
图4-1Method对话框
✧TransformValues栏,选择消除数量级差的方法(见图4-2),依次是:
None不作处理(系统默认);本例选择此项。
Zscores标准化处理;
Range-1to1各变量值除全距;
Range0to1各变量值减最小值后除全距;
Maximummagnitudeof1各变量值除最大值;
Meanof1各变量值除以均值;
Standarddeviationof1各变量值除以标准差。
图4-2Method对话框
4.单击Plots按钮,打开对话框如图5.
图5Plots对话框
✧Dendrogram表示输出树形图,本例选择此项。
✧Icicle表示输出冰柱图。
其中,
Allclusters表示输出聚类分析每个阶段的冰柱图;本例选择此项。
Specifiedrangeofcluster表示只输出某个阶段的冰柱图,输入从第几步开始到第几步结束,中间间隔几步。
✧Orientationk栏中指定如何显示冰挂图:
Vertical纵向显示,本例选择此项。
Horizontal横向显示。
图6SaveNewVariables对话框
5.单击Save按钮,打开SaveNewVariables对话框,如图6所示。
选择是否将聚类的结果以变量形式保存在数据文件中。
变量名为:
clun_m,其中n表示类数,m表示第m次分析。
✧ClusterMembership栏
None不输出
Simplesolution指定分类数,并输出样本所属类。
单一变量。
Rengeofsolution指定输出从m到n类的各样本所属类。
多个变量。
当选择结束后,在主对话框中点击OK,可得下面的输出表和图。
ProximityMatrix两两变量间距离矩阵(相关系数矩阵)
Case
MatrixFileInput
人均粮食支出(元/人)
人均副食支出(元/人)
人均烟、酒、茶支出(元/人)
人均其他副食支出(元/人)
人均衣着商品支出(元/人)
人均日用品支出(元/人)
人均燃料支出(元/人)
人均非商品支出(元/人)
人均粮食支出(元/人)
.000
.334
-.055
-.061
-.289
.197
.349
.319
人均副食支出(元/人)
.334
.000
-.023
.399
-.156
.716
.414
.835
人均烟、酒、茶支出(元/人)
-.055
-.023
.000
.533
.497
.033
-.139
-.258
人均其他副食支出(元/人)
-.061
.399
.533
.000
.698
.478
-.171
.313
人均衣着商品支出(元/人)
-.289
-.156
.497
.698
.000
.284
-.208
-.081
人均日用品支出(元/人)
.197
.716
.033
.478
.284
.000
.408
.710
人均燃料支出(元/人)
.349
.414
-.139
-.171
-.208
.408
.000
.399
人均非商品支出(元/人)
.319
.835
-.258
.313
-.081
.710
.399
.000
AverageLinkage(BetweenGroups)类间平均
AgglomerationSchedule凝聚状态进度表;
Stage
ClusterCombined
Coefficients
StageClusterFirstAppears
NextStage
Cluster1
Cluster2
Cluster1
Cluster2
1
2
8
.835
0
0
2
2
2
6
.713
1
0
5
3
4
5
.698
0
0
4
4
3
4
.515
0
3
7
5
2
7
.407
2
0
6
6
1
2
.299
0
5
7
7
1
3
.004
6
4
0
凝聚状态进度表:
第一列(Stage)表示聚类的进度顺序;第二、三列(Clustercombine)表示每一步将哪两类合并;第四列(Cofficients)表示被合并的两类之间的距离;第五、六列(StageClusterFirstAppares)表示被合并的两类上一次合并分别是在哪一步形成的。
0表示被合并的类为单个样品。
最后一列(NextStage)表示每一步形成的新类将在哪一步参与下一次合并。
VerticalIcicle冰柱图
Numberofclusters
Case
人均衣着商品支出(元/人)
人均其他副食支出(元/人)
人均烟、酒、茶支出(元/人)
人均燃料支出(元/人)
人均日用品支出(元/人)
人均非商品支出(元/人)
人均副食支出(元/人)
人均粮食支出(元/人)
1
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
2
X
X
X
X
X
X
X
X
X
X
X
X
X
X
3
X
X
X
X
X
X
X
X
X
X
X
X
X
4
X
X
X
X
X
X
X
X
X
X
X
X
5
X
X
X
X
X
X
X
X
X
X
X
6
X
X
X
X
X
X
X
X
X
X
7
X
X
X
X
X
X
X
X
X
Dendrogram表示输出树形图(谱分析图)
******HIERARCHICALCLUSTERANALYSIS******
DendrogramusingAverageLinkage(BetweenGroups类间平均)
RescaledDistanceClusterCombine
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
X22
X88
X66
X77
X11
X44
X55
X33
二:
K-聚类法的具体操作
以例10.4为例,说明快速聚类法的操作过程。
1.在数据窗口单击Analyze→Classify→K-MeanCluster打开对话框(见图7)
图7K-MeansClusterAnalysis对话框
将变量选入Variables栏;
将标识变量选入LabelCases栏(可省略)
将分类数输入Numberof框(系统默认为2),本例中选择4.
✧Method栏聚类方法栏
Iterateandclassify(按K-means算法)叠代分类(系统默认)。
Classifyonly仅按初始类别中心点分类(不叠代)。
✧Centers类中心数据的输入与输出(可省略)
Readinitialfrom使用指定数据文件中的数据作为初始类中心(文件格式参考Writefinalas文件格式)
选择Writefinalas把聚类结果中的各类中心数据保存到指定的文件。
本例中选择系统默认项。
2.单击Iterate按钮,打开Iterate对话框如图8所示:
✧MaximumIterations限定K-Means算法的迭代次数,系统默认值10
✧ConvergenceCriterion-指定限定收敛标准,系统默认值为0。
✧Userunningmeans限定在每个观测量被分配到一类后即刻计算新的类中心,不选此项表示只有当全部样本的类分配完后再计算类中心,可以节省运算时间,所以一般情况下不选择此项。
本例中选择默认项。
图8Iterate对话框
3.单出Save按钮,打开Save对话框见图9.
ClusterMember在原数据文件中保存分类结果(本例选择)。
Distancefromclustercenter在原数据文件中保存各观测量距所属类中心间的欧氏距离。
图9Save对话框
4.单击Options按钮,打开Options对话框见图10。
✧Statistics栏
Initialclustercenters输出初始类中心。
ANOVAtable输出方差分析表
Clusterinformationforeachcase每个观测量的分类信息(分类结果和该观测量距所属类中心的距离等)
图10Options对话框
✧MissingValues栏
Excludecaseslistwise将出现在Variables变量表中变量带有缺失值得观测量从分析中剔除(系统默认)
Excludecasespairwise只有当一个观测量的全部聚类变量值均缺失时才将其从分析中剔除,否则根据所有其他非缺失变量值把它分配到最近的一类中去。
全部选择完成后得到输出结果。
InitialClusterCenters初始类中心
Cluster
1
2
3
4
x1人均粮食支出(元/人)
21.30
23.68
25.56
19.07
x2人均副食支出(元/人)
124.89
173.30
171.65
73.18
x3人均烟、酒、饮料支出(元/人)
35.43
17.43
22.30
18.01
x4人均其他副食支出(元/人)
73.98
43.59
40.53
29.38
x5人均衣着支出(元/人)
93.01
53.66
57.13
64.51
x6人均日用杂品支出(元/人)
20.58
16.86
12.60
8.91
x7人均水电燃料支出(元/人)
43.97
65.02
54.03
38.14
x8人均其他非商品支出(元/人)
433.73
385.94
225.08
155.45
IterationHistorya迭代过程表
Iteration
ChangeinClusterCenters
1
2
3
4
1
29.250
.000
38.950
25.321
2
.000
.000
8.415
2.404
3
.000
.000
.000
.000
a.Convergenceachievedduetonoorsmallchangeinclustercenters.Themaximumabsolutecoordinatechangeforanycenteris.000.Thecurrentiterationis3.Theminimumdistancebetweeninitialcentersis88.803.
ClusterMembership(聚类结果)
CaseNumber
地区
Cluster
Distance
1
北京
1
29.250
2
天津
3
57.295
3
河北
4
13.014
4
山西
4
30.528
5
4
34.511
6
辽宁
4
37.350
7
吉林
4
20.520
8
4
21.396
9
上海
1
29.128
10
江
3
14.371
11
浙江
1
30.023
12
安徽
4
35.519
13
福建
3
45.005
14
江西
4
32.834
15
山东
4
33.839
16
河南
4
25.206
17
湖北
4
13.689
18
湖南
3
36.637
19
广东
2
.000
20
广西
4
45.453
21
海南
4
67.004
22
重庆
3
19.289
23
四川
4
24.567
24
贵州
4
27.326
25
云南
4
26.228
26
西藏
3
61.066
27
陕西
4
28.348
28
甘肃
4
20.175
29
青海
4
17.874
30
宁夏
4
22.448
31
新疆
4
18.804
聚类结果中的第四列显示的是各样本与其所属类的中心之间的距离。
上述结果可通过“save”按钮设置,保存至原始数据文件中。
FinalClusterCenters类中心
Cluster
1
2
3
4
x1人均粮食支出(元/人)
20.80
23.68
22.29
19.72
x2人均副食支出(元/人)
145.27
173.30
131.38
91.46
x3人均烟、酒、饮料支出(元/人)
39.86
17.43
31.64
20.63
x4人均其他副食支出(元/人)
64.95
43.59
44.19
33.93
x5人均衣着支出(元/人)
89.70
53.66
65.48
59.43
x6人均日用杂品支出(元/人)
16.32
16.86
13.06
9.96
x7人均水电燃料支出(元/人)
49.44
65.02
42.48
38.91
x8人均其他非商品支出(元/人)
417.01
385.94
234.53
171.13
ANOVA方差分析表
Cluster
Error
F
Sig.
MeanSquare
df
MeanSquare
df
x1人均粮食支出(元/人)
14.170
3
5.710
27
2.482
.082
x2人均副食支出(元/人)
5809.646
3
474.087
27
12.254
.000
x3人均烟、酒、饮料支出(元/人)
459.585
3
76.568
27
6.002
.003
x4人均其他副食支出(元/人)
913.557
3
34.833
27
26.226
.000
x5人均衣着支出(元/人)
842.129
3
145.065
27
5.805
.003
x6人均日用杂品支出(元/人)
54.180
3
3.931
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 操作方法 聚类分析 报告