第六章数据分析梅长林习题答案.docx
- 文档编号:16964705
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:18
- 大小:164KB
第六章数据分析梅长林习题答案.docx
《第六章数据分析梅长林习题答案.docx》由会员分享,可在线阅读,更多相关《第六章数据分析梅长林习题答案.docx(18页珍藏版)》请在冰点文库上搜索。
第六章数据分析梅长林习题答案
第六章习题
习题6.3
解:
用SAS的procfastclus将各个国家聚为三类,即如果如下:
聚类散点图如下:
(2)聚为四类结果散点图如下:
习题6.4
解:
通过procfastclus聚为三类结果如下:
ClusterListing
Obs
years
Cluster
DistancefromSeed
1
1978
1
474.3
2
1979
1
433.2
3
1980
1
362.1
4
1981
1
288.9
5
1982
1
260.0
6
1983
1
218.3
7
1984
1
141.7
8
1985
1
60.4851
9
1986
1
169.3
10
1987
1
350.2
11
1988
1
730.5
12
1989
1
890.3
13
1990
2
985.0
14
1991
2
723.8
15
1992
2
249.2
16
1993
2
484.6
17
1994
2
1475.1
18
1995
3
1086.4
19
1996
3
394.5
20
1997
3
96.1975
21
1998
3
471.9
22
1999
3
958.6
聚类结果散点图:
习题6.6
解:
(1)在proccluster过程中取选项“method=single”,用最短距离法得到的聚类结果如下所示:
ClusterHistory
NCL
ClustersJoined
FREQ
Min
Dist
T
i
e
10
N
Da
2
1
T
9
Fr
I
2
1
T
8
CL9
S
3
1
7
E
CL10
3
2
6
CL8
P
4
3
5
CL7
G
4
4
4
CL5
Du
5
5
T
3
CL4
CL6
9
5
2
CL3
H
10
8
T
1
CL2
Fi
11
8
上述聚类过程为:
首先在最短距离为1的时候,将挪威语和丹麦语聚为一类,得新类CL10={丹麦语,挪威语},其中包含2个样本,这是全部类被分为10类;其次,将法语和意大利语聚为一类,CL9={法语,意大利语};其中包含两个样本,这是全部样本被分为9类,接着在最短距离为2的时候,波兰语被分到CL9当中,也即CL8={CL9,波兰语},然后英语被分到CL10中,的新类CL7={CL10,英语}={丹麦语,挪威语,英语},如此等等,最后在最短距离为8的时候,所有类并入CL2中,这样全部样品归为一类,系统聚类结束。
由谱系聚类法能够细致的看出由小到大的聚类过程,由合并时的距离水平可以看出样本之间的亲疏程度。
然后利用proctree过程可以画出最短距离谱系图如下所示:
其中以E、N、Da、Du、G、Fr、S、I、P、H、Fi分别代表英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语、芬兰语等11中语言。
(2)最长距离法。
在proccluster过程中选取”method=conplete”,得到最长距离法聚类过程见下表:
ClusterHistory
NCL
ClustersJoined
FREQ
Max
Dist
T
i
e
10
N
Da
2
1
T
9
Fr
I
2
1
T
8
E
CL10
3
2
T
7
CL9
S
3
2
6
Du
G
2
5
T
5
CL7
P
4
5
4
CL8
CL6
5
7
T
3
H
Fi
2
8
2
CL4
CL3
7
9
1
CL2
CL5
11
10
与最短距离法聚类过程相比,倒数第六步两种方法合并次序和合并距离水平有所不同。
(3)类平均距离法。
在proccluster过程中选取”method=average”,得到最长距离法聚类过程见下表:
ClusterHistory
NCL
ClustersJoined
FREQ
Aver
Dist
T
i
e
10
N
Da
2
1
T
9
Fr
I
2
1
T
8
CL9
S
3
1.5
7
E
CL10
3
2
6
CL8
P
4
4
5
CL7
G
4
5
T
4
CL5
Du
5
5.75
3
CL4
CL6
9
6.9
2
H
Fi
2
8
1
CL3
CL2
11
9.0556
与最短距离法聚类过程相比,倒数第二步两种方法合并次序不同,在最长距离聚类中时将匈牙利语和芬兰语先合并为一类在和CL3聚为一类。
最长距离聚类法谱系图如下所示:
(4)重心法。
在proccluster过程中选取”method=centroid”,得到最长距离法聚类过程见下表:
ClusterHistory
NCL
ClustersJoined
FREQ
Squared
Cent Dist
T
i
e
10
N
Da
2
1
T
9
Fr
I
2
1
T
8
CL9
S
3
1.25
7
E
CL10
3
1.75
6
CL8
P
4
3.5556
5
CL7
G
4
4.4444
T
4
CL5
CL6
8
4.0625
3
CL4
Du
9
5.3594
2
CL3
Fi
10
6.5679
1
CL2
H
11
6.22
重心法与前述几种方法在类的合并以及距离水平都有所差异。
其谱系聚类结果如下所示:
2.习题6.7
解:
(1)最长距离法。
在proccluster过程中选取”method=complete”,得到最长距离法聚类过程见下表:
ClusterHistory
NCL
ClustersJoined
FREQ
Max
Dist
15
1989
1990
2
13.9
14
1999
2000
2
17.06
13
1985
1986
2
18.83
12
1991
1992
2
29.022
11
1996
1997
2
31.489
10
CL13
1987
3
47.606
9
CL15
CL12
4
53.244
8
CL11
1998
3
68.7
7
1995
CL8
4
81.253
6
CL10
1988
4
118.56
5
CL9
1993
5
123.18
4
CL7
CL14
6
144.09
3
1994
CL4
7
199.95
2
CL6
CL5
9
306.9
1
CL2
CL3
16
672.8
然后得到聚为三类的结果:
第一类:
1989、1990、1992、1991、1993
第二类:
1999、2000、1996、1997、1998、1995、1994
第三类:
1985、1992、1988
Obs
years
CLUSTER
CLUSNAME
1
1989
1
CL5
2
1990
1
CL5
3
1999
2
CL3
4
2000
2
CL3
5
1985
3
CL6
6
1986
3
CL6
7
1991
1
CL5
8
1992
1
CL5
9
1996
2
CL3
10
1997
2
CL3
11
1987
3
CL6
12
1998
2
CL3
13
1995
2
CL3
14
1988
3
CL6
15
1993
1
CL5
16
1994
2
CL3
谱系聚类结果图:
(2)类平均距离法。
在proccluster过程中选取”method=average”,得到最长距离法聚类过程见下表:
、
ClusterHistory
NCL
ClustersJoined
FREQ
Aver
Dist
T
i
e
15
1989
1990
2
13.9
14
1999
2000
2
17.06
13
1985
1986
2
18.83
12
CL15
1991
3
23.508
11
1996
1997
2
31.489
10
CL13
1987
3
38.338
9
CL12
1992
4
42.159
8
CL11
1998
3
56.317
7
1995
CL8
4
73.327
6
1988
CL9
5
89.989
5
CL7
CL14
6
110.9
4
CL6
1993
6
122.26
3
1994
CL5
7
171.24
2
CL10
CL4
9
185.58
1
CL2
CL3
16
466.34
谱系聚类结果图如下所示:
然后得到聚为三类的结果:
第一类:
1989、1990、1992、1988、1991、1993
第二类:
1999、2000、1996、1997、1998、1995、1994
第三类:
1986、1987、1985
Obs
years
CLUSTER
CLUSNAME
1
1989
1
CL4
2
1990
1
CL4
3
1999
2
CL3
4
2000
2
CL3
5
1985
3
CL10
6
1986
3
CL10
7
1991
1
CL4
8
1996
2
CL3
9
1997
2
CL3
10
1987
3
CL10
11
1992
1
CL4
12
1998
2
CL3
13
1995
2
CL3
14
1988
1
CL4
15
1993
1
CL4
16
1994
2
CL3
(3)对数据进行标准化之后,得到聚为三类的结果分别为:
最长距离法:
聚为三类的结果为:
第一类:
1999、2000、1996、1997、1998、1994
第二类结果:
1989、1990、1991、1992、1993
第三类结果为:
1895、1986、1987、1988
Obs
years
CLUSTER
CLUSNAME
1
1999
1
CL3
2
2000
1
CL3
3
1989
2
CL4
4
1990
2
CL4
5
1985
3
CL6
6
1986
3
CL6
7
1996
1
CL3
8
1997
1
CL3
9
1991
2
CL4
10
1992
2
CL4
11
1987
3
CL6
12
1998
1
CL3
13
1995
1
CL3
14
1988
3
CL6
15
1993
2
CL4
16
1994
1
CL3
类平均距离法聚聚为三类的结果:
第一类:
1999、2000、1996、1997、1994、1995、1998、
第二类:
1989、1990、1991、1992、1993
第三类:
1985、1986、1987、1988
Obs
years
CLUSTER
CLUSNAME
1
1999
1
CL3
2
2000
1
CL3
3
1989
2
CL4
4
1990
2
CL4
5
1985
3
CL5
6
1986
3
CL5
7
1991
2
CL4
8
1996
1
CL3
9
1997
1
CL3
10
1987
3
CL5
11
1992
2
CL4
12
1998
1
CL3
13
1995
1
CL3
14
1988
3
CL5
15
1993
2
CL4
16
1994
1
CL3
观察聚类结果发现,在数据标准化之前不同聚类方法得到的结果不仅尽相同,而且在标准化前后聚类结果也是不要一样的,但是在数据标准化之后,两种不同的聚类方法聚类结果完全相同。
3.习题6.8
解:
首先从相关系数矩阵出发,通过变换得到距离矩阵。
令
,从
出发,得到变换之后的距离矩阵:
(1)最短距离聚类法。
在proccluster过程中取选项“method=single”,用最短距离法得到的聚类结果如下所示:
ClusterHistory
NCL
ClustersJoined
FREQ
Min
Dist
T
i
e
4
x2
x3
2
0.5825
3
x1
CL4
3
0.6209
2
x4
x5
2
0.708
1
CL3
CL2
5
0.8394
谱系聚类结果图:
(2))最长距离法。
在proccluster过程中选取”method=conplete”,得到最长距离法聚类过程见下表:
ClusterHistory
NCL
ClustersJoined
FREQ
Max
Dist
T
i
e
4
x2
x3
2
0.5825
3
x1
CL4
3
0.6974
2
x4
x5
2
0.708
1
CL3
CL2
5
1.0369
谱系聚类结果图:
(3)类平均距离法。
在proccluster过程中选取”method=average”,得到最长距离法聚类过程见下表:
ClusterHistory
NCL
ClustersJoined
FREQ
RMS
Dist
T
i
e
4
x2
x3
2
0.5825
3
x1
CL4
3
0.6603
2
x4
x5
2
0.708
1
CL3
CL2
5
0.9257
谱系聚类结果图:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 数据 分析 梅长林 习题 答案