系统聚类分析方法Word文件下载.docx
- 文档编号:3578973
- 上传时间:2023-05-02
- 格式:DOCX
- 页数:19
- 大小:21.01KB
系统聚类分析方法Word文件下载.docx
《系统聚类分析方法Word文件下载.docx》由会员分享,可在线阅读,更多相关《系统聚类分析方法Word文件下载.docx(19页珍藏版)》请在冰点文库上搜索。
在地理分区和分类研究中,往往采用几种距离进行计算、
对比,选择一种较为合适的距离进行聚类。
例:
表3.4.2给出了某地区九个农业区的七项指标,它们经过极差标准化处理后,如表
3.4.3所示。
对于表3.4.3中的数据,用绝对值距离公式计算可得九个农业区之间的绝对值距离矩阵:
3.直接聚类法
直接聚类法是根据距离矩阵的结构一次并类得到结果。
▲基本步骤:
①把各个分类对象单独视为一类;
②根据距离最小的原则,依次选出一对分类对象,并成新类;
③如果其中一个分类对象已归于
一类,则把另一个也归入该类;
如果一对分类对象正好属于已归的两类,则把这两类并为一类;
每一次归并,都划去该对象所在的列与列序相同的行;
④那么,经过m-1次就可以把全部分类
对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。
★直接聚类法虽然简便,但在归并过程中是划去行和列的,因而难免有信息损失。
因此,直接
聚类法并不是最好的系统聚类方法。
[举例说明](点击打开新窗口,显示该内容)
已知九个农业区之间的绝对值距离矩阵,使用直接聚类法做聚类分析。
解:
根据上面的距离矩阵,用直接聚类法聚类分析:
第一步,在距离矩阵D中,除去对角线元素以外,d49=d94=0.51为最小者,故将第4区与第9区并为一类,
划去第9行和第9列;
第二步,在余下的元素中,除对角线元素以外,
d75=d57=0.83为最小者,故将第5区与第7区并为一类,
划掉第7行和第7列;
第三步,在第二步之后余下的元素之中,除对角线元素以外,
d82=d28=0.88为最小者,故将第2区与第8
区并为一类,划去第8行和第8列;
第四步,在第三步之后余下的元素中,除对角线元素以外,
d43=d34=1.23为最小者,故将第
3区与第4区
并为一类,划去第4行和第4列,此时,第
3、4、9区已归并为一类;
第五步,在第四步之后余下的元素中,除对角线元素以外,
d21=d12=1.52为最小者,故将第
1区与第2区
并为一类,划去第2行和第2列,此时,第
1、2、8区已归并为一类;
第六步,在第五步之后余下的元素中,除对角线元素以外,
d65=d56=1.78为最小者,故将第
5区与第6区
并为一类,划去第6行和第6列,此时,第
5、6、7区已归并为一类;
第七步,在第六步之后余下的元素中,除对角线元素以外,
d31=d13=3.10为最小者,故将第
1区与第3区
并为一类,划去第3行和第3列,此时,第
1、2、3、4、8、9区已归并为一类;
第八步,在第七步之后余下的元素中,除去对角线元素以外,只有
d51=d15=5.86,故将第
1区与第5区并
为一类,划去第5行和第5列,此时,第1、2、3、4、5、6、7、8、9、区均归并为一类;
根据上述步骤,可以做出直接聚类谱系图。
(点击展开显示该图)
4.最短距离聚类法
最短距离聚类法是在原来的m×
m距离矩阵的非对角元素中找出,把分类对象Gp和Gq归并为
一新类Gr,然后按计算公式
计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;
再从新的距离
矩阵中选出最小者dij,把Gi和Gj归并成新类;
再计算各类与新类的距离,这样一直下去,直
至各分类对象被归为一类为止。
[举例说明](点击打开新窗口,显示该例)
已知九个农业区之间的绝对值距离矩阵,使用最短距离聚类法做聚类分析。
用最短距离聚类法对某地区的九个农业区进行聚类分析:
第一步,在9×
9阶距离矩阵D中,非对角元素中最小者是d94=0.51,故首先将第4区与第9区并为一类,
记为G10,即G10={G4,G9}。
分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离得:
这样就得到G1,G2,G3,G5,G6,G7,G8,G10上的一个新的8×
8阶距离矩阵:
第二步,在上一步骤中所得到的8×
8阶距离矩阵中,非对角元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11={G5,G7}。
分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,可得到一个新的7×
7阶距离矩阵:
第三步,在第二步所得到的7×
7阶距离矩阵中,非对角元素中最小者为d28=0.88,故将G2与G8归并为一
类,记为G12,即G12={G2,G8}。
分别计算G1,G3,G6,G10,G11与G12之间的距离,可得到一
个新的6×
6阶距离矩阵:
第四步,在第三步中所得的6×
6阶距离矩阵中,非对角元素中最小者为d6,11=1.07,故将G6与G11归并
为一类,记为G13,即G13={G6,G11}={G6,(G5,G7)}。
计算G1,G3,G10,G12与G13之间
的距离,可得到一个新的5×
5阶距离矩阵:
第五步,在第四步中所得的5×
5阶距离矩阵中,非对角线元素中最小者为d3,10=1.20,故将G3与G10
归并为一类,记为G14,即G14={G3,G10}={G3,(G4,G9)}。
再按照公式(3.3.10)式计算G1,
G12,G13与G14之间的距离,可得一个新的4×
4阶距离矩阵:
第六步,在第五步所得到的4×
4阶距离矩阵中,非对角线元素中最小者为d12,14=1.29,故将G12与G14
归并为一类,记为G15,即G15={G12,G14}={(G2,G8),(G3,(G4,G9))}。
再按照公式(3.3.10)
式计算G1,G13与G15之间的距离,可得一个新的3×
3阶距离矩阵:
第七步,在第六步所得的3×
3阶距离矩阵中,非对角线元素中最小者为d1,15=1.32,故将G1与G15归并
为一类,记为G16,即G16={G1,G15}={(G1,(G2,G8),(G3,(G4,G9))}。
再按照公式
(3.3.10)式计算G13与G16之间的距离,可得一个新的2×
2阶距离矩阵:
第八步,将G13与G16归并为一类。
此时,所有分类对象均被归并为一类。
综合上述聚类过程,可以作出最短距离聚类谱系图。
(点击展开显示)
5.最远距离聚类法
最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离采用的公式不同。
最远距离聚类法的计算公式:
6.系统聚类法计算类之间距离的统一公式
▲最短距离聚类法具有空间压缩性,而最远距离聚类法具有空间扩张性(图3.4.4)。
最短距离
为dAB=da1b1,最远距离为dAB=dap2。
▲最短距离聚类法和最远距离聚类法关于类之间的距离计算可以用统一的式子表示:
当γ=-1/2时,就是最短距离聚类法计算类间距离的公式;
当
算类间距离的公式。
▲系统聚类的方法还有:
γ=1/2时,就是最远距离聚类法计
表示了八种不同系统聚类方法计算类间距离的统一表达式(见表3.3.4)。
7.系统聚类分析实例
作为系统聚类分析方法的应用实例,下面对中国大陆31个省级区域第三产业综合发展水平进行
类型划分及差异性程度分析。
1)聚类指标选择
选取如下7项指标作为对中国第三产业综合发展水平进行聚类分析的基础指标:
①y1——人均GDP,反映经济社会发展的总体状况和一般水平;
②y2——人均第三产业增加值,反映人均服务产品占有量或服务密度;
③y3——第二产业增加值比重,反映工业化水平和产业结构现代化程度;
④y4——第三产业增加值比重,反映第三产业的发展程度及其对国民经济的贡献;
⑤y5——第三产业从业人员比重,反映第三产业对劳动力的吸纳能力;
⑥y6——第三产业固定资产投资比重,反映第三产业的资金投入程度;
⑦y7——城市化水平,反映农村人口转化为城市人口的程度及对服务的需求量。
2)聚类计算
以1999年国家统计局出版的《中国统计年鉴》(
1998
年度的数据)为数据来源,运用上述
7
项指标
(表
3.4.5)
(点击显示该表),借助于统计分析软件包
SPSS10.0进行聚类分析计算,计算
过程如下:
①用标准差标准化方法对7项指标的原始数据进行处理。
②采用欧氏距离测度31个省(市、区)之间的样本间距离。
③选用组平均法计算类间的距离,并对样本进行归类。
经过上述聚类计算步骤,得到的聚类结果见图3.4.5。
(点击在新窗口中显示该图)
一、模糊聚类分析基本原理
聚类分析是根据样本代表性指标在性质上的亲疏程度进行分类。
因此,我们可以把模糊聚类分析的步骤分解如下:
1.确定样本统计指标与数据标准化
对样本进行分类的效果如何,关键在于要把统计指标选择合理。
也就是统计指标应该有明确的实际意义,有较强的分辨力和代表性,即要有一定的普遍意义。
数据标准化就是把各个代表统计指标的数据标准化,以便于分析和比较,这一步也称为数据正规化。
方法是:
差,
式中x为原始数据,
为标准化数据。
若要把标准化数据压缩到
为原始数据的平均值,S为原始数据的标准
[0,1]闭区间,可用极值标准化公式:
xmax——原始数据组中的最大者;
xmin——原始数据组中的最小者。
当x=xmax时,=1;
x=xmin时,=0。
2.标定距离,建立相似关系矩阵
n;
距离是衡量分类对象间相似程度的统计量,用rij(i
j=1,2,⋯n;
n为样本的个数)表示。
利用
=1rij
,2,⋯
从而确
定相似关系矩阵
标定距离的方法有很多,下面只列举几种常用的计算方法:
⑴欧氏距离
其中,xik表示第i个样本的第k个指标的观察值,xjk表示第j个样本的第k个指标的观察值,rij表示第i个样本与第j个样本之间的亲疏程度。
rij越小,则第i个样本与第j个样本之间的性质就越接近。
性质接近的样本就可以划归为一类。
⑵绝对减数法
其中c应适当选取,使得0≤rij≤1。
3.进行聚类
在确定了样本之间的距离后,就可以对样本进行归类,归类的方法很多,其中用得最广泛的是系统聚类法。
它首先把n个样本每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后又再重新计算类与类之间的距离,直至所有样品归为一类为止。
爱人者,人恒爱之;
敬人者,人恒敬之;
宽以济猛,猛以济宽,政是以和。
将军额上能跑马,宰相肚里能撑船。
最高贵的复仇是宽容。
有时宽容引起的道德震动比惩罚更强烈。
君子贤而能容罢,知而能容愚,博而能容浅,粹而能容杂。
宽容就是忘却,人人都有痛苦,都有伤疤,动辄去揭,便添新创,旧痕新伤难愈合,忘记昨日的是非,忘记别人先前对自己的指责和谩骂,时间是良好的止痛剂,学会忘却,生活才有阳
光,才有欢乐。
不要轻易放弃感情,谁都会心疼;
不要冲动下做决定,会后悔一生。
也许只一句分手,就再也不见;
也许只一次主动,就能挽回遗憾。
世界上没有不争吵的感情,只有不肯包容的心灵;
生活中没有不会生气的人,只有不知原谅的心。
感情不是游戏,谁也伤不起;
人心不是钢铁,谁也疼不起。
好缘分,凭的就是真心真意;
真感情,要的就是不离不弃。
爱你的人,舍不得伤你;
伤你的人,并不爱你。
你在别人心里重不重要,自己可以感觉到。
所谓华丽的转身,都有旁人看不懂的情深。
人在旅途,肯陪你一程的人很多,能陪你一生的人却很少。
谁在默默的等待,谁又从未走远,谁能为你一直都在?
这世上,别指望人人都对你好,对你好的人一辈子也不会遇到几个。
人心只有一颗,能放在心上的人毕竟不多;
感情就那么一块,心里一直装着你其实是难得。
动了真情,情才会最难割;
付出真心,心才会最难舍。
你在谁面前最蠢,就是最爱谁。
其实恋爱就这么简单,会让你智商下降,完全变了性格,越来越不果断。
所以啊,不管你有多聪明,多有手段,多富有攻击性,真的爱上人时,就一点也用不上。
这件事情告诉我们。
谁在你面前很聪明,很有手段,谁就真的不爱你呀。
遇到你之前,我以为爱是惊天动地,爱是轰轰烈烈抵死缠绵;
我以为爱是荡气回肠,爱是热血沸腾幸福满满。
我以为爱是窒息疯狂,爱是炙热的火炭。
婚姻生活牵手走过酸甜苦辣温馨与艰难,我开始懂得爱是经得起平淡。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 系统 聚类分析 方法