书签分享收藏举报版权申诉 / 80

立即下载加入VIP,免费下载

当前位置：首页 > 求职职场 > 简历 > SPSS聚类分析详解.ppt

SPSS聚类分析详解.ppt

文档编号：18850489
上传时间：2024-01-29
格式：PPT
页数：80
大小：1.63MB

SPSS聚类分析详解.ppt

《SPSS聚类分析详解.ppt》由会员分享，可在线阅读，更多相关《SPSS聚类分析详解.ppt（80页珍藏版）》请在冰点文库上搜索。

SPSS聚类分析详解.ppt

聚类分析聚类分析聚类分析是研究（样品或指标）分类问题的一种多元统计方法。

类是指相聚类分析是研究（样品或指标）分类问题的一种多元统计方法。

类是指相似元素的集合。

似元素的集合。

分类：

1、系统聚类法、系统聚类法-（分层聚类）系统聚类法是应用最广泛的一种（分层聚类）系统聚类法是应用最广泛的一种（HierarchicalCluster过程）过程）1）、聚类原则：

都是相近的聚为一类，即距离最近或最相似的聚为一）、聚类原则：

都是相近的聚为一类，即距离最近或最相似的聚为一类。

类。

2）、分层聚类的方法可以用于样本聚类（）、分层聚类的方法可以用于样本聚类（Q）型，也可以用于变量聚）型，也可以用于变量聚类类（R型）。

型）。

2、非系统聚类法、非系统聚类法-（快速聚类法（快速聚类法-K-均值聚类法）（均值聚类法）（K-meansCluster）3、两步聚类法、两步聚类法-一种探索性的聚类方法（一种探索性的聚类方法（TwoStepCluster）K-均值聚类分析均值聚类分析K-meansCluster又称为快速样本聚类法，是非系统聚类中最常用的聚又称为快速样本聚类法，是非系统聚类中最常用的聚类法。

类法。

优点：

是占内存少、计算量小、处理速度快，特别适合大样是占内存少、计算量小、处理速度快，特别适合大样本的聚类分析。

本的聚类分析。

缺点：

应用范围有限，要求用户制定分类数目应用范围有限，要求用户制定分类数目（要告知要告知），只，只能对能对观测量（样本）观测量（样本）聚类，而不能对变量聚类，且所使用的聚聚类，而不能对变量聚类，且所使用的聚类变量必须都是连续性变量类变量必须都是连续性变量。

基本原理基本原理具体做法具体做法1、按照指定的分类数目、按照指定的分类数目n，按某种方法选择某些观测量，设，按某种方法选择某些观测量，设为为Z1，Z2，Zn，作为初始聚心。

，作为初始聚心。

2、计算每个观测量到各个聚心的欧氏距离。

即、计算每个观测量到各个聚心的欧氏距离。

即按就近原则将每个观测量选入一个类中，然后计算各个类的中按就近原则将每个观测量选入一个类中，然后计算各个类的中心位置，即均值，作为新的聚心。

心位置，即均值，作为新的聚心。

3、使用计算出来的新聚心重新进行分类，分类完毕后继续计、使用计算出来的新聚心重新进行分类，分类完毕后继续计算各类的中心位置，作为新的聚心，如此反复操作，直到两次算各类的中心位置，作为新的聚心，如此反复操作，直到两次迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小距离的倍数时，或者到达迭代次数的上限时，停止迭代。

距离的倍数时，或者到达迭代次数的上限时，停止迭代。

2112mkjkikjiijxxzxd数据标准化处理：

数据标准化处理：

存储中间过程数据存储中间过程数据数据标准化处理，并存储。

指定5类收敛标准值存储最终结果输出情况，在数据文件中（存储最终结果输出情况，在数据文件中（QCL-1、QCL-2）初始聚心选项，输出方差分析表初始聚类中心表具体城市看后表最终聚类中心表最终聚类中心表聚类结果：

聚类结果：

QCL-1说明聚类结果，说明聚类结果，QCL-2说明聚类的长度情说明聚类的长度情况况系统聚类法系统聚类法HierarchicalCluster系统聚类法优点：

系统聚类法优点：

既可以对观测量（样品）也可对变量既可以对观测量（样品）也可对变量进行聚类，既可以连续变量也可以是分类变量进行聚类，既可以连续变量也可以是分类变量，提供的距离计算方法和结果显示方法也很丰，提供的距离计算方法和结果显示方法也很丰富。

富。

应用实例某电冰箱厂开发某一新产品，在投放市场前希望对以往经销的国内6个地区征集对新产品的评价，若对新产品的评价指标有三项：

式样、性能、颜色，评价的调整表采用10分制，调查结果的数据如下表123456性能9110928颜色827946式样728357地区（样品）指标用分类法对6个样品进行分类，以估计哪些地区最有可能经销这类新产品？

按公式计算两两样品间的相似系数，得相似矩阵）（）（ijijqCosQ1916.0921.01928.0994.01787.0899.0994.0910.01927.0841.0955.01914.0994.01933.01123456123456Q=按四条原则进行分类作聚类分析图X3X6X1X4X2X510.9940.9550.9940.933一、问题提出聚类分析对一批样品或指标进行分类的一种统计方法。

具体处理方法：

（思路）1、具体研究的分类对象：

样品或指标2、方法：

把“性质相似”或“相互关系密切”的样品或指标聚在一起。

3、步骤：

1）首先给出度量“相似”或“关系密切”的统计指标2）形成一个由小到大的分析系统。

3）把整个分类系统画成一张分类图（3）相关系数（4）关联系数指标：

（1）统计指标是相似系数。

根据相似性归为一类，否则为另一类。

（2）统计指标是样品（空间的点）之间的距离将距离近的点归成一类，否则为另一类。

二、聚类统计量首先定义一些分类统计指标刻画样或指标之间的相似程度（这些统计指标称为聚类统计量）在市场研究中，样品用作分类的事物指标用来作为分类依据的变量。

（如：

年龄、收入、销售量）

（一）相似系数（夹角余弦）一般式：

假定每个样品包含有P项指标，若有几个样品的调查数据pXXXX112111pXXXX222212npnnnXXXX21每一个样品都可看成P维空间中的一个向量对于任意两个样品Xi和Xj的相似程度可用这两个向量之间的夹角余弦ijCos来表示：

Xi和Xj相重合时，夹角0ij相似程度为100CosCosijXi和Xj相互垂直时，2ij相似程度为02CosCosij相似密切解析几何知识：

相似系数pkpkjkikpkjkikjijiijXXXXXXXXCos11221其中：

ipiiiXXXX21jpjjjXXXX2111ijCos如果把上述n个样品的任何两个样品的相似系数）,2,1,（njiCosij都计算出来并排列成一个矩阵：

nnnnnnCosCosCosCosCosCosCosCosCos212222111211根据算出的，就可对n个样品进行聚类用相似系数作为聚类统计量时的分类方法1、分类原则：

（1）若选出一对样品，在已分好的类中未出现，则形成一个独立新类。

（2）若选出两个样品中，有一个是在已分好的类中出现过，则把另一个样品也加入到该类中去。

（3）若选出一对样品，都分别出现已经分好的两类中，则把这两个类联结在一起。

（4）若选出的一对样品都出现在同一组中，则这对样品就不用再分组了。

按上述四条原则反复进行，直到把所有样品都分类完毕，最后以分类图形式表示2、分类方法例：

设有7个样品，每个样品测得P个指标，数据如表X1X2X3X4X5X6X7PXXX21样品指标要求对此7个样品进行聚类，采用的聚类统计量是相似系数（夹角余弦）pkpkjkikpkjkikjijiijXXXXXXXXCos11221首先计算所有的两个样品间的相似系数）（）（ijijqCosQ124.016.030.020.041.024.0152.015.092.067.020.0174.054.001.097.0186.091.081.0183.094.0151.0112345671234567Q=按矩阵中的数值对7个样品（按四个原则）进行聚类124.016.030.020.041.024.0152.015.092.067.020.0174.054.001.097.0186.091.081.0183.094.0151.0112345671234567Q=顺序连结样品相似系数123456X1X50.97X1X5X30.94X2X40.91X2X4X60.67X1X5X3X2X4X60.51X1X5X3X70.24X2X4X6按矩阵中的数值对7个样品（按四个原则）进行聚类1、记下Q中最大值q15=0.97，划去Q中的第5行第5列2、记下Q中剩余元素最大值q13=0.94，划去Q中的第3行第3列行（3）记下Q中剩余元素最大值q24=0.91，划去Q中的第4行第4列（4）记下Q中剩余元素最大值q26=0.67，划去Q中的第6行第6列（5）记下Q中剩余元素最大值q12=0.51，划去Q中的第2行第2列（6）记下Q中剩余元素最大值q17=0.24作聚类图：

X1X5X3X2X4X6X70.970.940.910.670.510.242）利用相关作聚类分析例：

设有n个样品，每个样品测得8个指标X1，X2，X8。

要求对8个指标进行聚类，聚类统计量采用相关系数ijr22jjkiikjjkjikijXXXXXXXXr设相关矩阵R=（）为：

ijr188.045.049.078.051.080.038.0149.050.073.015.068.045.0196.049.096.053.099.0187.094.046.094.0149.093.045.0157.096.0147.011234567812345678顺序连结样品相似系数1234567X1X60.99X1X6X30.96X2X40.93X2X4X70.68X5X80.49X1X6X3X2X4X70.47X1X6X3X5X8-0.94X2X4X7R=按矩阵按矩阵R中数值对中数值对8个指标（按四个原则）进行聚类：

个指标（按四个原则）进行聚类：

1）记下矩阵中的最大值）记下矩阵中的最大值99.016r，划去第，划去第6行第行第6列列2）记下矩阵中的最大值）记下矩阵中的最大值96.013r，划去第，划去第3行第行第3列列以此类推。

以此类推。

作聚类图：

X1X6X3X4X2X7X5X80.990.960.930.680.490.47-0.94主要城市日照时数注：

连续变量注：

连续变量SPSS提供不同类间提供不同类间距离的测量方法距离的测量方法1、组间连接法、组间连接法2、组内连接法、组内连接法3、最近距离法、最近距离法4、最远距离法、最远距离法5、重心法、重心法6、中位数法、中位数法7、Ward最小偏差最小偏差平方和法平方和法观测量概述表聚类步骤，与图结合看！

4、5聚类方法有系统聚类和逐步聚类，输入数据集可以是普通数据集、相关矩阵（CORR过程产生）或协方差矩阵（FACTOR等过程产生）。

SAS提供的聚类过程有：

1、CLUSTER对坐标数据或距离数据的观测值用11种方法进行系统聚类，当观测值数太多时，不宜直接采用。

2、FASTCLUS对于坐标数据，用K-均值法对观测值进行逐步聚类，当观测值很多时，则先用FACTCLUS过程对其进行初步聚类，然后再用CLUSTER过程进行系统聚类。

3、VARCLUS通过斜交多组分量分析对变量进行系统聚类或逐步聚类。

4、TREE为CLUSTER或VARCLUS过程产生的输出画树状图。

CLUSTER过程开始每个观测值自成一类，然后求两两之间的距离，将距离最近的两个观测值合成一类。

这个过程一直进行下去，每次减少一类，直到合成一类为止。

聚类方法有11种，可根据问题的性质选用，它们的区别在于怎样计算两类之间的距离。

METHOD=指定方法AVERAGE（平均法）、CENTROID（重心法）、COMPLETE（最大距离法）、DENSITY（密度法）、MEDIAM（中位数法）等美国十个城市的分类根据两个城市见航空距离将美国十个大城市作分类聚类分析SAS程序：

原始数据是两两之间距离的三角阵（而不是坐标）输入格式55列为城市15位平均法重心法最小距离法输出F及t统计量观测值之间距离的均方根输出结果：

类数指出被合并的类新类中的观测值数类间距离除以观测值间距离均方根得来F、t*2峰值（起伏）越大说明分类显著研究各种饮料在市场消费的分配规律，试确定各种饮料消费类型聚类分析的第几步哪两个样本或小类聚成一类相应的样本距离或小类距离指明是样本（0）还是小类（n）下面第几步用到垂直冰柱图显示层次聚类分析从冰柱图最后一行开始观察，第一列表示类数两步聚类法两步聚类法TwoStepCluster一种探索性的聚类方法，是随着人工智能的发展起来的智一种探索性的聚类方法，是随着人工智能的发展起来的智能聚类方法中的一种。

用于解决海量数据或具有复杂类别结构的聚能聚类方法中的一种。

用于解决海量数据或具有复杂类别结构的聚类分析问题。

类分析问题。

两步聚类法特点：

1、同时处理离散变量和连续变量的能力、同时处理离散变量和连续变量的能力2、自动选择聚类数、自动选择聚类数3、通过预先选取样本中的部分数据构建聚类模型、通过预先选取样本中的部分数据构建聚类模型4、可以处理超大样本量的数据、可以处理超大样本量的数据简单介绍基本原理简单介绍基本原理分两步进行分两步进行第一步：

预聚类。

对记录进行初始的归类，用户自定义最大第一步：

预聚类。

对记录进行初始的归类，用户自定义最大类别数。

通过构建和修改特征树（类别数。

通过构建和修改特征树（CTFree）完成。

）完成。

第二步：

正式聚类。

对第一步完成的初步聚类进行再聚类并第二步：

正式聚类。

对第一步完成的初步聚类进行再聚类并确定最终的聚类方案，系统根据一定的统计标准确定聚类的确定最终的聚类方案，系统根据一定的统计标准确定聚类的类别数目。