第5章--聚类分析5.3.ppt
- 文档编号:8156548
- 上传时间:2023-05-12
- 格式:PPT
- 页数:76
- 大小:2.05MB
第5章--聚类分析5.3.ppt
《第5章--聚类分析5.3.ppt》由会员分享,可在线阅读,更多相关《第5章--聚类分析5.3.ppt(76页珍藏版)》请在冰点文库上搜索。
第五章聚类分析,第三节系统聚类分析法,第三节系统聚类分析法,一系统聚类的基本思想,二类间距离与系统聚类法,三类间距离的统一性,系统聚类法也称谱系聚类法,应用广泛,来源于植物分类学的思想对研究对象进行分类。
植物分类学:
分类单位是门、纲、目、科、属、种,其中种是分类的基本单位。
分类单位越小,包含的植物就越少,植物间的共同特征就越多。
系统聚类法基本思想是:
首先视各样品自成一类,然后把相近(距离最小)的样品聚为小类,再将已聚合的小类按其相近性(用类间距离)再聚合,随着相近性的减弱,最后将一切子类聚合成一个大类。
从而得到一个按相近性大小聚结起来的谱系图,再根据实际情况确定合适的分类个数。
一、系统聚类的基本思想,一、系统聚类的基本思想,系统聚类过程是:
假设总共有n个样品(或变量),数据变换:
可以使用上节介绍的方法对数据进行变换.数据变换目的是为了便于比较、计算上的方便或改变数据的结构.选择度量样品间距离的定义(如欧氏距离)及度量类间距离的定义(如最短距离法,见下面“系统聚类分析的方法”中的介绍).计算n个样品(个体)两两间的距离,得初始的距离矩阵D
(1).,0,第一步:
将每个样品(或变量)独自聚成一类,共有n类;第二步:
根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n1类;第三步:
将“距离”最近的两个类进一步聚成一类,共聚成n2类;,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成1类。
画谱系聚类图;决定分类的个数及各类的成员.,当临界值d=2.01应分为两类,当临界值d=1.51应分为三类,当临界值d=1.01应分为四类,为了直观地反映以上的系统聚类过程,可以把整个分类系统画成一张谱系图。
除系统聚类法外,还有有序聚类法、动态聚类法、图论聚类法、模糊聚类法等,限于篇幅,我们只介绍系统聚类方法。
二、类间距离与系统聚类法,在进行系统聚类之前,我们首先要定义类与类之间的距离,由类间距离定义的不同产生了不同的系统聚类法。
常用的类间距离定义有8种之多,与之相应的系统聚类法也有8种,分别为最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。
它们的归类步骤基本上是一致的,主要差异是类间距离的计算方法不同。
以下用dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。
1.最短距离法,定义类Gi与Gj之间的距离为两类最近样品的距离,即为(5.11)设类Gp与Gq合并成一个新类记为Gr,则任一类Gk与Gr的距离为(5.12),最短距离法进行聚类分析的步骤如下:
(1)定义样品之间距离,计算样品的两两距离,得一距离阵记为D(0),开始每个样品自成一类,显然这时Dij=dij。
(2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个新类,记为Gr,即Gr=Gp,Gq。
(3)按(5.12)计算新类与其它类的距离。
(4)重复
(2)、(3)两步,直到所有元素。
并成一类为止。
如果某一步距离最小的元素不止一个,则对应这些最小元素的类可以同时合并。
注意:
样品或变量间的距离与类间的距离计算方法是不一样的,此处最短距离是计算类间距离的,样品或变量间的距离由前面的距离公式计算,【例5.1】设有六个样品,每个只测量一个指标,分别是1,2,5,7,9,10,试用最短距离法将它们分类。
(1)样品采用绝对值距离,计算样品间的距离阵D(0),见表5.1,表5.1,
(2)D(0)中最小的元素是D12D561,于是将G1和G2合并成G7,G5和G6合并成G8,即:
删除G1和G2的行列改为G7,删除G5和G6的行列改为G8。
并利用(5.12)式计算新类与其它类的距离D
(1)即分别计算G7和G8与G3和G4距离以及G7与G8距离,如,简单的方法就是在原表中对原类的样品画行线,新类的样品画竖线,取交叉点的最小值为类间距离,如:
如G7与G3和G4距离,,如G8与G3和G4距离,,或者在原表中对原类的样品画竖线,新类的样品画行线,取交叉点的最小值为类间距离,如:
如D37=min4,3=3,如D47=min6,5=5,如D38=min4,2=2,如D48=min5,3=3,得新矩阵:
(3)在D
(1)中最小值是D34D482,由于G4与G3合并,又与G8合并,因此G3、G4、G8合并成一个新类G9,其与其它类的距离D
(2),见表5.3,表5.3,(4)最后将G7和G9合并成G10,这时所有的六个样品聚为一类,其过程终止。
上述聚类的可视化过程见图5.1所示,横坐标的刻度表示并类的距离。
这里我们应该注意,聚类的个数要以实际情况所定,其详细内容将在后面讨论。
图5.1最短距离聚类法的过程,根据谱系聚类图可得到分类的结果:
若分为两类,则分为:
X
(1),X
(2)和X(3),X(4),X(5),X(6)若分为四类,则分为:
X
(1),X
(2),X(3)和X(4)和X(5),X(6),;若分为六类,则分为:
X
(1),X
(2),X(3)和X(4)和X(5),X(6),;,2.最长距离法,(5.14)再找距离最小两类并类,直至所有的样品全归为一类为止。
可以看出最长距离法与最短距离法只有两点不同:
一是类与类之间的距离定义不同;另一是计算新类与其它类的距离所用的公式不同。
【例5.2】设有六个样品,每个只测量一个指标,分别是1,2,5,7,9,10,试用最短距离法将它们分类。
(1)样品采用绝对值距离,计算样品间的距离阵D(0)为,
(2)D(0)中最小的元素是D12D561,于是将G1和G2合并成G7=G1,G2,G5和G6合并成G8=G5,G6,并利用(5.12)式计算新类与其它类的距离D
(1),,(3)在D
(1)中最小值是D342,由于G4与G3合并G9=G4,G3,其与其它类的距离D
(2),,(4)在D
(2)中最小值是D895,由于G8与G9合并G10,其与其它类的距离D(3),,(5)最后将G7和G10合并成G11,这时所有的六个样品聚为一类,其过程终止。
上述聚类的可视化过程见图5.2所示,横坐标的刻度表示并类的距离。
这里我们应该注意,聚类的个数要以实际情况所定,其详细内容将在后面讨论。
图5.1最长距离聚类法的过程,G1G2G3G4G5G6,1234,G7,G8,G9,G10,G11,根据谱系聚类图可得到分类的结果:
若分为两类,则分为:
X
(1),X
(2)和X(3),X(4),X(5),X(6)若分为三类,则分为:
X
(1),X
(2),X(3),X(4)和X(5),X(6);若分为四类,则分为:
X
(1),X
(2),X(3),X(4)和X(5),X(6);若分为六类,则分为:
X
(1),X
(2),X(3),X(4),X(5)和X(6);,最短、最长距离定义表示都是极端情况,我们定义类间距离可以既不采用两类之间最近的距离也不采用两类之间最远的距离,而是采用介于两者之间的距离,称为中间距离法。
中间距离将类Gp与Gq类合并为类Gr,则任意的类Gk和Gr的距离公式为(140)(5.15)设DkqDkp,如果采用最短距离法,则Dkr=Dkp,如果采用最长距离法,则Dkr=Dkq。
如图5.2所示,(5.15)式就是取它们(最长距离与最短距离)的中间一点作为计算Dkr的根据。
3.中间距离法,特别当=14,它表示取中间点算距离,公式为(5.16),图5.2中间距离法,4.重心法,(5.19),【例5.3】设有六个样品,每个只测量一个指标,分别是1,2,5,7,9,10,试用重心法将它们分类。
(1)样品采用欧氏距离,计算样品间的距离阵D(0)为,
(2)D(0)中最小的元素是D12D561,于是将G1和G2合并成G7,G5和G6合并成G8,并利用(5.18)式计算新类与其它类的距离得到距离阵D
(1),如下表其中,其它结果类似可以求得,(3)在D
(1)中最小值是D344,那么G3与G4合并一个新类G9,其与其它类的距离D
(2),见下表,(4)在D
(2)中最小值是D894,那么G8与G9合并一个新类G10,其与其它类的距离D(3),见下表,(5)最后将G7和G10合并成G11,这时所有的六个样品聚为一类,其过程终止。
上述聚类的可视化过程见图5.2所示,横坐标的刻度表示并类的距离。
这里我们应该注意,聚类的个数要以实际情况所定,其详细内容将在后面讨论。
图5.1重心聚类法的过程,G1G2G3G4G5G6,1234,G7,G8,G9,G10,G11,根据谱系聚类图可得到分类的结果:
若分为两类,则分为:
X
(1),X
(2)和X(3),X(4),X(5),X(6)若分为三类,则分为:
X
(1),X
(2),X(3),X(4)和X(5),X(6);若分为四类,则分为:
X
(1),X
(2),X(3),X(4)和X(5),X(6);若分为六类,则分为:
X
(1),X
(2),X(3),X(4),X(5)和X(6);,5.类平均法,6.可变类平均法,由于类平均法中没有反映出Gp和Gq之间的距离Dpq的影响,因此将类平均法进一步推广,如果将Gp和Gq合并为新类Gr,类Gk与新并类Gr的距离公式为:
(5.22)其中是可变的且1,称这种系统聚类法为可变类平均法。
7.可变法,8.离差平方和法,该方法是Ward提出来的,所以又称为Ward法。
该方法的基本思想来自于方差分析,如果分类正确,同类样品的离差平方和应当较小,类与类的离差平方和较大。
具体做法:
先将n个样品各自成一类,然后每次缩小一类,每缩小一类,离差平方和就要增大,选择使方差增加最小的两类合并,直到所有的样品归为一类为止。
设将n个样品分成k类G1,G2,Gk,用Xit表示Gt中的第I个样品,nt表示Gt中样品的个数,是Gt的重心,则Gt的样品离差平方和为,这种系统聚类法称为离差平方和法或Ward方法。
下面论证离差平方和法的距离递推(5.26)式。
由于,三、类间距离的统一性,上述八种系统聚类法的步骤完全一样,只是距离的递推公式不同。
兰斯(Lance)和威廉姆斯(Williams)于1967年给出了一个统一的公式。
(5.28)其中ap、aq、是参数,不同的系统聚类法,它们取不同的数,详见表5.8。
这里应该注意,不同的聚类方法结果不一定完全相同,一般只是大致相似。
如果有很大的差异,则应该仔细考查,找到问题所在;另外,可将聚类结果与实际问题对照,看哪一个结果更符合经验。
表5.8系统聚类法参数表,20:
02:
55,50,系统聚类法的步骤:
(1)n个样品开始时作为n个类,计算两两之间的距离,此时,20:
02:
55,51,
(2)选择D(0)中主对角线以下(或以上)的最小元素,设这个元素是dpq,这时Gp=xp,Gp=xp,首先将Gp,Gp合并成一个新类Gr=Gp,Gp.在D(0)中消去Gp,Gp所对应的行与列,并加入由新类Gr与剩下的其他未聚合的类间的距离所组成的一行和一列,得到一个更新的距离矩阵D
(1),它是n-1阶方阵.,20:
02:
55,52,(3)从D
(1)出发重复步骤
(2)的做法得D
(2),再由D
(2)出发重复上述步骤,直到n个样品聚为一个大类为止.,(4)在合并过程中要记下合并样品的编号及两类合并时的距离(称为距离水平),并绘制聚类谱系图,系统聚类法可由SAS系统proccluster过程完成,并利用proctree过程画出谱系图。
53,proccluster过程,PROCCLUSTERDATA=输入数据集METHOD=聚类方法选项;VAR聚类用变量;IDvariables;COPY复制变量;RUN;,VAR语句指定用来聚类的变量。
COPY语句把指定的变量复制到OUTTREE的数据集中。
ID语句表征各样品的名称。
54,PROCCLUSTER语句的主要选项有:
(1)METHOD=选项,这是必须指定的,此选项决定我们要用的聚类方法,主要由类间距离定义决定。
AVERAGE(AVE类平均法)CENTROID(CEN重心法)COMPLETE(COM最长距离法)SINGLE(SIN最短距离法),55,
(2)DATA输入数据集,可以是原始观测数据集,也可以是距离矩阵数据集。
(3)OUTTREE=输出数据集,把绘制谱系聚类树的信息输出到一个数据集,可以用TREE过程调用此数据集绘图树形图并实际分类。
(4)STANDARD选项,把变量标准化为均值为0,标准差为1,再计算欧氏距离矩阵,即利用方差加权距离进行聚类分析,该选项只适用于原始观测数据集的情况。
56,proctree过程,TREE过程可以把cluster过程产生的outree数据集作为输入数据集,画出系统聚类的树形图,并按照用户指定的聚类水平(类数)产生分类结果数据集。
其一般格式如下:
PROCTREEDATA数据集OUT=输出数据集NCLUSTER=类数选项;COPY复制变量;RUN;,57,COPY语句把输入数据集中的变量复制到输出数据集。
PROCTREE语句的重要选项有:
(1)DATA数据集,指定从CLUSTER过程生成的OUTTREE数据集作为输入数据集。
(2)OUT数据集,指定包含最后分类结果(每一个观测属于哪一类,用一个CLUSTER变量区分)的输出数据集。
(3)NCLUSTERS选项,由用户指定最后把样本观测分为多少个类(即聚类水平)。
(4)HORIZONTAL,画树形图时沿水平方向画,即绘制水平方向的树形图,系统默认绘制垂直方向的树形图。
20:
02:
55,58,例5.4对13个国家1990年,1995年与2000年的可持续发展综合国力做评估,按前面所讲距离进行系统聚类分析,采用标准化数据聚类并给出聚为4类的结果,dataexamp6_4;inputcountry$x1x2x3;cards;澳大利亚1249.391273.611282.68巴西821.60859.85919.73加拿大1641.011591.541608.32中国1330.451382.681462.08法国1546.551501.771525.95德国1656.521630.521570.69印度861.30862.51945.11意大利1321.771232.301243.51日本1873.681949.891851.20俄罗斯1475.161315.871297.00南非794.25787.48782.38英国1486.751441.711465.12美国2824.292659.642740.12;run;,20:
02:
55,59,procclusterdata=examp6_4method=sinstdnonormouttree=tree1;varx1x2x3;idcountry;run;proctreedata=tree1graphicshorizontalout=c1nclusters=4;idcountry;run;procprintdata=c1;run;,20:
02:
55,60,ClusterHistoryMinNCLClustersJoinedFREQDist最短距离类的数目新聚类集新类中的样品数12巴西印度20.090611加拿大德国20.112810澳大利亚意大利20.17779法国英国20.20538CL11CL940.30247CL8中国50.31666CL12南非30.3175CL10俄罗斯30.35034CL5CL780.42333CL4日本90.94662CL3CL6121.28821CL2美国132.9032,20:
02:
55,61,ObscountryCLUSTER(所属的类)CLUSNAME1巴西1CL62印度1CL63加拿大2CL44德国2CL45澳大利亚2CL46意大利2CL47法国2CL48英国2CL49中国2CL410南非1CL611俄罗斯2CL412日本3日本13美国4美国,20:
02:
55,62,20:
02:
55,63,procclusterdata=examp6_4method=comstdnonormouttree=tree1;varx1x2x3;idcountry;run;proctreedata=tree1graphicshorizontalout=c1nclusters=4;idcountry;run;procprintdata=c1;run;,20:
02:
55,64,ClusterHistoryMaxNCLClustersJoinedFREQDist最长距离类的数目新聚类集新类中的样品数12巴西印度20.090611加拿大德国20.112810澳大利亚意大利20.17779法国英国20.20538CL12南非30.38257CL10俄罗斯30.43346中国CL930.48815CL11CL650.81834CL7CL581.21143CL4日本92.15522CL3CL8123.76631CL2美国136.6495,20:
02:
55,65,ObscountryCLUSTER(所属的类)CLUSNAME1巴西1CL82印度1CL83加拿大2CL44德国2CL45澳大利亚2CL46意大利2CL47法国2CL48英国2CL49中国2CL410南非1CL811俄罗斯2CL412日本3日本13美国4美国,20:
02:
55,66,20:
02:
55,67,procclusterdata=examp6_4method=avestdnonormouttree=tree1;varx1x2x3;idcountry;run;proctreedata=tree1graphicshorizontalout=c2nclusters=4;idcountry;run;procprintdata=c2;run;,20:
02:
55,68,ClusterHistoryAverNCLClustersJoinedFREQDist类平均距离类的数目新聚类集新类中的样品数12巴西印度20.090611加拿大德国20.112810澳大利亚意大利20.17779法国英国20.20538CL12南非30.34987CL10俄罗斯30.39186中国CL930.40245CL11CL650.54764CL7CL580.81053CL4日本91.56422CL3CL8122.18681CL2美国134.8093,20:
02:
55,69,ObscountryCLUSTER(所属的类)CLUSNAME1巴西1CL82印度1CL83加拿大2CL44德国2CL45澳大利亚2CL46意大利2CL47法国2CL48英国2CL49中国1CL810南非2CL411俄罗斯2CL412日本3日本13美国4美国,20:
02:
55,70,20:
02:
55,71,procclusterdata=examp6_4method=censtdnonormouttree=tree1;varx1x2x3;idcountry;run;proctreedata=tree1graphicshorizontalout=c2nclusters=4;idcountry;run;procprintdata=c2;run;,20:
02:
55,72,ClusterHistoryMinNCLClustersJoinedFREQDist最短距离类的数目新聚类集新类中的样品数12巴西印度20.090611加拿大德国20.112810澳大利亚意大利20.17779法国英国20.20538CL12南非30.32717CL11CL940.34326CL10俄罗斯30.34745CL6中国40.37134CL5CL780.54493CL4日本91.29042CL3CL8121.72811CL2美国134.1851,20:
02:
55,73,ObscountryCLUSTER(所属的类)CLUSNAME1巴西1CL82印度1CL83加拿大2CL44德国2CL45澳大利亚2CL46意大利2CL47法国2CL48英国2CL49中国1CL810南非2CL411俄罗斯2CL412日本3日本13美国4美国,20:
02:
55,74,20:
02:
55,75,小结:
本次课主要学习了教材中介绍的四种谱系聚类方法,以及它们的统一公式,熟悉软件中最长(短)距离法和重心法的具体使用步骤,能运用聚类分析法及统计软件解决一些实际问题。
本章结束,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 5.3