多元统计分析课程实验聚类分析.docx
- 文档编号:11346396
- 上传时间:2023-05-31
- 格式:DOCX
- 页数:12
- 大小:146.31KB
多元统计分析课程实验聚类分析.docx
《多元统计分析课程实验聚类分析.docx》由会员分享,可在线阅读,更多相关《多元统计分析课程实验聚类分析.docx(12页珍藏版)》请在冰点文库上搜索。
多元统计分析课程实验聚类分析
多元统计分析课程实验--聚类分析
我国各地区城镇居民消费性支出的聚类分析
一、问题的背景
下表列出了1999年全国31个省、直辖市和自治区(港、澳、台不在其中)的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。
这八个变量是
:
食品
:
交通和通讯
:
衣着
:
娱乐教育文化服务
:
家庭设备用品及服务
:
居住
:
医疗保健
:
杂项商品和服务
消费性支出数据单位:
元
地区
北京
2959.19
730.79
749.41
513.34
467.87
1141.82
478.42
457.64
天津
2459.77
495.47
697.33
302.87
284.19
735.97
570.84
305.08
河北
1495.63
515.90
362.37
285.32
272.95
540.58
364.91
188.63
山西
1406.33
477.77
290.15
208.57
201.50
414.72
281.84
212.10
内蒙古
1303.97
524.29
254.83
192.17
249.81
463.09
287.87
192.96
辽宁
1730.84
553.90
246.91
279.81
239.18
445.20
330.24
163.86
吉林
1561.86
492.42
200.49
218.36
220.69
459.62
360.48
147.76
黑龙江
1410.11
510.71
211.88
277.11
224.65
376.82
317.61
152.85
上海
3712.31
550.74
893.37
346.93
527.00
1034.98
720.33
462.03
江苏
2207.58
449.37
572.40
211.92
302.09
585.23
429.77
252.54
浙江
2629.16
557.32
689.73
435.69
514.66
795.87
575.76
323.36
安徽
1844.78
430.29
271.28
126.33
250.56
513.18
314.00
151.39
福建
2709.46
428.11
334.12
160.77
405.14
461.67
535.13
232.29
江西
1563.78
303.65
233.81
107.90
209.70
393.99
509.39
160.12
山东
1675.75
613.32
550.71
219.79
272.59
599.43
371.62
211.84
河南
1427.65
431.79
288.55
208.14
217.00
337.76
421.31
165.32
湖北
1783.43
511.88
282.84
201.01
237.60
617.74
523.52
182.52
湖南
1942.23
512.27
401.39
206.06
321.29
697.22
492.60
226.45
广东
3055.17
353.23
564.56
356.27
811.88
873.06
1082.82
420.81
广西
2033.87
300.82
338.65
157.78
329.06
621.74
587.02
218.27
海南
2057.86
186.44
202.72
171.79
329.65
477.17
312.93
279.19
重庆
2303.29
589.99
516.21
236.55
403.92
730.05
438.41
225.80
四川
1974.28
507.76
344.79
203.21
240.24
575.10
430.36
223.46
贵州
1673.82
437.75
461.61
153.32
254.66
445.59
346.11
191.48
云南
2194.25
537.01
369.07
249.54
290.84
561.91
407.70
330.95
西藏
2646.61
839.70
204.44
209.11
379.30
371.04
269.59
389.33
陕西
1472.95
390.89
447.95
259.51
230.61
490.90
469.10
191.34
甘肃
1525.57
472.98
328.90
219.86
206.65
449.69
249.66
228.19
青海
1654.69
437.77
258.78
303.00
244.93
479.53
288.56
236.51
宁夏
1375.46
480.89
273.84
317.32
251.08
424.75
228.73
195.93
新疆
1608.82
536.05
432.46
235.82
250.28
541.30
344.85
214.40
资料来源:
2000年《中国统计年鉴》
我们希望根据上述八个指标对各地区进行聚类。
聚类分析的方法有很多,其中有系统聚类法和动态聚类法等等,本次试验将用R软件进行系统聚类法和动态聚类法。
一、系统聚类法
系统聚类法(hierarchicalclusteringmethod)是聚类分析诸方法中用的最多的一种,其基本思想是:
开始将n个样本各自作为一类,并确定样本之间的距离和类与类之间的距离,然后将聚类最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样本合并为一类。
系统聚类法距离的确定方法有很多,如:
最短距离法(single)、最长距离法(complete)、中间距离法(median)、mcquitty相似法(mcquitty)、类平均法(average)、重心法(centroid)、离差平方和法(Ward方法)(ward),括号后面是R软件中的表示代码。
R软件可以用hclust()函数进行系统聚类。
(1)最短距离法(single)
按照最短距离法得到的5类分别为:
第1类:
广东
第2类:
西藏
第3类:
上海
第4类:
北京
第5类:
浙江、海南、福建、广西、天津、江西、云南、江苏、陕西、安徽、贵州、重庆、河南、湖南、湖北、四川、青海、宁夏、内蒙古、山西、甘肃、吉林、辽宁、黑龙江、山东、河北、新疆
(2)最长距离法(complete)
按照最长距离法得到的5类分别为:
第1类:
西藏
第2类:
江西、安徽、贵州、海南、福建、广西、河南、陕西、青海、宁夏、内蒙古、山西、甘肃、吉林、辽宁、黑龙江、重庆、江苏、云南、湖南、湖北、四川、山东、河北、新疆
第3类:
广东
第4类:
天津、浙江
第5类:
北京、上海
(3)中间距离法(median)
第1类:
广东
第2类:
北京
第3类:
上海、天津、浙江
第4类:
西藏
第5类:
海南、江西、广西、福建、青海、宁夏、陕西、河南、安徽、贵州、云南、重庆、江苏、山东、湖南、内蒙古、山西、甘肃、吉林、辽宁、黑龙江、河北、新疆、湖北、四川
(4)mcquitty相似法(mcquitty)
第1类:
广东
第2类:
浙江、天津、重庆、湖南、湖北、四川、山东、河北、新疆、江苏、云南
第3类:
北京、上海
第4类:
西藏
第5类:
江西、安徽、贵州、陕西、青海、宁夏、河南、内蒙古、山西、甘肃、吉林、辽宁、黑龙江、河南、福建、广西
(5)类平均法(average)
第1类:
西藏
第2类:
河南、江西、福建、广西、陕西、湖南、湖北、四川、山东、河北、新疆、安徽、贵州、青海、宁夏、海南、内蒙古、山西、甘肃、吉林、辽宁、黑龙江、天津、重庆、江苏、云南
第3类:
广东
第4类:
上海
第5类:
北京、浙江
(6)重心法(centroid)
第1类:
西藏
第2类:
河南、江西、福建、广西、陕西、湖南、湖北、四川、山东、河北、新疆、安徽、贵州、青海、宁夏、海南、内蒙古、山西、甘肃、吉林、辽宁、黑龙江、天津、重庆、江苏、云南
第3类:
广东
第4类:
上海
第5类:
北京、浙江
(7)离差平方和法(Ward方法)
第1类:
广东、上海、北京、浙江
第2类:
西藏
第3类:
天津、重庆、江苏、云南、湖南、湖北、四川、山东、河北、新疆
第4类:
内蒙古、山西、甘肃、青海、宁夏、吉林、辽宁、黑龙江
第5类:
河南、江西、福建、广西、陕西、、安徽、贵州、海南
总结:
7种方法得到的类有的相同、有的不同,需要根据具体的数据与背景再进一步确定认同哪种聚类是较为合理的。
二、动态聚类法
动态聚类法又称为逐步聚类法,其基本思想是:
开始先粗略地分一下类,然后按照某种最优原则修改不合理的分类,直至类分得比较合理为止,这样就形成一个最终的分类结果。
这种方法具有计算量较小,占计算机内存较少和方法简单等有限,适用于大样本的Q型聚类。
kmeans()函数采用的是K均值方法,采用逐个修改方法,最早由MacQueen于1967年提出来。
接下来进行R软件聚类。
用R软件得到如下结果:
>km=kmeans(scale(X),5,nstart=20);km
K-meansclusteringwith5clustersofsizes7,4,1,16,3
Clustermeans:
x1x2x3x4x5x6
10.38091050.727728050.4284646-0.12354960.085952910.2215108
20.1884219-1.53016321-0.6594861-1.09782190.05751333-0.4270452
31.8308656-1.127736040.93689611.29595443.909048351.6014419
4-0.6858629-0.05818051-0.4787096-0.1598851-0.57749718-0.5070907
51.90762661.028393592.12038332.17278061.499727642.2232050
x7x8
1-0.027240550.3904549
20.33154520-0.2336878
33.880314132.0187653
4-0.49317064-0.6033238
50.958306401.9453274
Clusteringvector:
北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江
51444444515
安徽福建江西山东河南湖北湖南广东广西海南重庆
42214413221
四川贵州云南西藏陕西甘肃青海宁夏新疆
441144444
Withinclustersumofsquaresbycluster:
[1]23.3484489.1313340.00000019.78388110.280048
(between_SS/total_SS=73.9%)
Availablecomponents:
[1]"cluster""centers""totss""withinss"
[5]"tot.withinss""betweenss""size""iter"
[9]"ifault"
第1类:
天津、江苏、重庆、山东、湖南、云南、西藏
第2类:
福建、江西、广西、海南
第3类:
广东
第4类:
河北、山西、内蒙古、辽宁、吉林、黑龙江、安徽、河南、湖北、四川、贵州、陕西、甘肃、青海、宁夏、新疆
第5类:
北京、上海、浙江
附录(R程序):
###总数据读取
X=data.frame(read.delim("D:
\\an\\clust.txt",header=T),
row.names=c("北京","天津","河北","山西","内蒙古","辽宁","吉林","黑龙江",
"上海","江苏","浙江","安徽","福建","江西","山东","河南","湖北","湖南","广东",
"广西","海南","重庆","四川","贵州","云南","西藏","陕西","甘肃","青海","宁夏","新疆")
)
###生成距离结构,做系统聚类
d=dist(scale(X))
hc1=hclust(d,"single")
hc2=hclust(d,"complete")
hc3=hclust(d,"median")
hc4=hclust(d,"mcquitty")
hc5=hclust(d,"average")
hc6=hclust(d,"centroid")
hc7=hclust(d,"ward")
###绘出谱系图和聚类情况(最长距离发和类平均法)
plclust(hc1,hang=-1);rel=rect.hclust(hc1,k=5,border="red")
plclust(hc2,hang=-1);rel=rect.hclust(hc2,k=5,border="red")
plclust(hc3,hang=-1);rel=rect.hclust(hc3,k=5,border="red")
plclust(hc4,hang=-1);rel=rect.hclust(hc4,k=5,border="red")
plclust(hc5,hang=-1);rel=rect.hclust(hc5,k=5,border="red")
plclust(hc6,hang=-1);rel=rect.hclust(hc6,k=5,border="red")
plclust(hc7,hang=-1);rel=rect.hclust(hc7,k=5,border="red")
###动态聚类法
km=kmeans(scale(X),5,nstart=20);km
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 课程 实验 聚类分析