聚类分析.docx
- 文档编号:8841157
- 上传时间:2023-05-15
- 格式:DOCX
- 页数:19
- 大小:1.06MB
聚类分析.docx
《聚类分析.docx》由会员分享,可在线阅读,更多相关《聚类分析.docx(19页珍藏版)》请在冰点文库上搜索。
聚类分析
武夷学院实验报告
课程名称:
多元统计分析项目名称:
聚类分析
姓名:
专业:
信息与计算科学班级:
1班学号:
同组成员:
无
一、实验目的
通过本次实验,进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能;达到能综合运用所学基本理论和专业知识;锻炼整理、运用资料的能力的目的;希望能会调用SPSS软件聚类分析有关过程命令,并且可以对数据处理结果进行正确判断分析,作出综合评价。
二、实验内容
1.操作SPSS的基本方法(打开、保存、编辑数据文件)
2.问卷编码
3.录入数据并练习数据相关操作
4.对不同性质指标对样本进行聚类,并给出分析结论。
三、实验步骤
1.开机
2.找到SPSS的快捷按纽或在程序中找到SPSS,打开SPSS
3.认识SPSS数据编辑窗、结果输出窗、帮助窗口、图表编辑窗、语句编辑窗
4.对一份给出的问卷进行编码和变量定义
5.按要求录入数据
6.练习基本的数据修改编辑方法
7.对不同性质指标对样本进行聚类,体会归类的思想。
8.保存数据文件
9.关闭SPSS,关机。
四、实验项目及结果
1.在spss中,利用系统聚类法进行聚类分析
区域科技创新能力是衡量区域创新系统的重要尺度,是增强地区竞争力,促进经济发展的重要手段。
这里以各区域技术创新的主体-规模以上企业为研究对象,来分析我国区域企业科技创新能力的相似性,评价各区域科技创新发展的现状及潜力。
具体思路是对我国31个省市自治区规模以上企业科技创新能力进行聚类分析。
企业科技创新能力的指标分别为R&D人员数。
R&D经费内部指出,R&D经费外部指出,R&D项目数,R&D项目经费支出,机构数,机构人员,机构经费支出,新产品销售收入,专利申请数,发明专利数,引进技术经费支出,购买国内技术经费支出等14个指标(这些指标均为各地区规模以上企业的情况)。
数据来源于2013年《中国科技统计年鉴》
2012年我国31个省市自治区规模以上企业科技创新指标
将数据录入SPSS软件,得到如下图
(1)操作步骤
(1)点击Analyze→Classify→HierarchicalCluster,进入HierarchicalCluster主对话框。
①Variables为设定变量列表框,用于将需要聚类的变量选入。
②LabelsCasesby为标签变量列表框。
本例中“地区”变量为对样本进行标识的变量,应放置与此。
③选中Cases表示对样本进行聚类(Q型聚类),选中Variables表示对变量进行聚类(R型聚类)
④Display用于选择显示统计量和聚类图。
(2)点击主对话框,Statisitics选项,用于选择要求输入的各种统计量。
①AgglomerationStatistics子选项表示要求做凝聚状态表。
显示聚类中每一步合并的两类,两类的距离以及观测量加入到一类的类水平。
②ProximityMatric子选项标识表示选择输出各类间的相似性矩阵。
③ClusterMembership子选项用于设置聚类的个数。
其中,None表示不确定聚类个数;Singlesolution(单一解)用于指定一个确定类的个数,Rangeofsolution(全距解)指定类的个数。
选中所需选项后,点击Continue返回主对话框。
(3)点击主对话框Plots选项,用于输出聚类分析统计图
①Dendrogram表示输出结果中显示谱系图。
②lcicle子选项为冰柱图选项。
其中,Allcluster表示每一步聚类都要表现在图中,Specifiedrangeofclusters指定显示的聚类范围;None表示不输出冰柱图。
③Orientation子选项用于设定冰柱图显示方向选项。
其中,Vertical为纵向现实,Horizontal表示横向显示。
选中所需选项后,点击Continue返回主对话框。
(4)点击主对话框,Method选项,对系统聚类方法进行设置。
①ClusterMethod子选项用于设置聚类的方法。
下拉列表给出了聚类的方法:
Between-groupslinkage(组件链接)为个体和小类间的组间平均连锁距离,是该个体与小类中每个个体距离及小类内各个个体间距离的平均值;Within-groupslinkage(组内链接)为组内连锁平均距离,是该个体与小类中每个个体距离及小类内各个个体间距离的平均;Neneighbor为最短距离法;Furthestneighber为最长距离法,Centroidclustering为重心法;Mdianclustering为中心距离法;Ward’smethod为离差平方合法。
②Measure子选项用于设定距离或相似性的测度方法。
其中,Inteval用于设置等间割测度的变量(一般为连续变量),在下拉菜单中选择距离测度方法;Count用于设置计数变量(离散变量),在下拉菜单中选择不相似性测度方法;Binary(二值变量)用于设置二值变量,在下拉菜单中选择距离或者不相似性测度方法。
③TransformValues子选项用于设定数据标准化的方法。
其中,None表示不进行标准化,Zscore表示数值标准化到Z分数(一般选此项);Range-ltol表示把数据标准化到-l到l范围内;Rangotol表示把数据标准化到0到1范围内;Maximummagnitudeof1(最大幅度为1);Meanof1表示把数据标准化到均值为1;standarddeviationof1表示把数据标准化到单位标准差。
4.Transformmeasure子选项中用于设定标准化转换的方式,其中,Absolutevalues表示对距离值取绝对值。
Changesign表示把相似性值变为不相似性值或相反,Resaleto0-1range表示重新标度到0-1范围内。
选中所需选项后,点击Continue返回主对话框。
(5)点击主对话框Save选项,用于对输出结果进行设置
子对话框中,ClusterMembership用于设定聚类分析的结果以什么样的形式保存在工作文件中。
其中,None表示不保存任何变量,Singersolution表示生成一个新变量,表明每个个体聚类最后所属的类,Rangeofsolution表示生成多个新变量,表明聚为若干类时,每个个体聚类后所属的类,如分别在Min和Max中输入2,4,表示生成三个新的分类变量。
设置完成后,点击Continue返回主对话框。
(6)在主对话框点击OK按钮,运行系统聚类分析程序。
(二)输出结果
(1)表5.17为样品处理汇总表
表5.17样品处理汇总
(2)表5.18为样品之间接近度矩阵,反映样品之间相似性或相异性的矩阵。
由于计算距离使用的是平方欧式距离,所以样品间距离越大,样品越相异。
表5.18样品之间的接近度距离
(3)表5.19为平均链接(组之间))聚类表,以表的形式说明聚类的过程。
表的第2列和第3列表示聚合的类,第4列表示聚合系数,是距离测定值,距离最小的先合并。
第4列和第5列表示合并的两项第一次出现的聚类部序号。
Cluster1和Cluster2的值均为0的是两个样品的合并,其中有一个为0的是样品与类的合并。
第6列表示对应步骤生成的新类将在第几步与其他样品或新类合并。
如第一阶段第26个样品和第29个样品合并,它们是样品与样品的合并,会在第二个阶段与其他样品合并。
表5.19平均链接(组之间)聚类表
(4)图5.14为谱系图,以图的形式说明聚类的过程。
从谱系图可以看出分四类比较合适,其中,江苏为第一类,浙江、山东、广东为第二类,上海为第三类,其余省份为第四类。
这个聚类结果显示我国区域规模以上企业的科技创新能力发展不平衡,呈现东部沿海地区创新能力较高,中西部地区创新能力低的特点。
二、在SPSS中利用K均值法进行聚类分析
这里通过K均值聚类方法来研究福建省各地市环境保护情况,选取的指标反映各地市污染强度和污染控制两方面的情况,具体包括:
工业废水排放总量、工业二氧化碳排放量、工业烟尘排放量、工业固体废物利用率以及工业烟尘去除量等5个指标。
数据来源于2013年《中国城市统计年鉴》和《福建统计年鉴》。
表5.20和表5.21分别是福建省9个地级市环境保护情况的数据和标准化后的数据。
表5.202012年福建省各地市环境保护情况
表5.21标准化后的数据
(一)操作步骤
(1)点击Analyze→ClassifyK-Means→Cluster进入K均值聚类分析主对话框。
1、Variables为设定变量列表框:
用于将需要聚类的变量选入。
2、LabelCaseby用于设定标签变量。
本例将"地区"放置于此以对样品进行标识。
3、NumberofCluster用于填写聚类数。
本例选择4,表示"地区"最后聚成4类。
4、Method用于选择聚类方法。
其中,Iterateandclassify表示整个聚类过程中不断计算新的聚类中心,并替换旧的类中心;Classifyonly表示仅按初始类别中心点进行分类。
5、ClusterCenters用于选择初始类中心。
其中,Readinitial要求指定数据文件中的观测量作为初始类中心;Writefinal表示把聚类过程中的各类中心数据保存到指定的文件中。
(2)点击主对话框Iterate选项,用于迭代参数进行设置,选项只有在主对话框的Iterateandclassify勾选后才会激活。
1、MaximumIteration用于设定最大迭代次数。
2、ConvergenceCriterion用于设定算法的收敛性标准,其数值应该介于0至1,如数据设置为0.02,表示当一次完整的迭代不能使一个类中心距离的变动与原始类中心距离的比小于2时,迭代停止。
设置完毕后,点击Continue返回主对话框
(3)点击主对话框Options选项,用于设置要计算的统计量以及对带有缺失值的观测量处理方式。
1、Statistics子选项用于设定要计算和输出的统计量。
其中,Initialclystercenters表示输出初始聚类中心;ANOVAtable表示输出方差分析表;Clusterinformationforeachcase表示系统将输出样品分配到哪一类和该样品与所属类中心的距离;
2、MissingValues子选项用于选择一种处理带有缺失值观测量的方法。
其中,Excludecaselistwise表示分析过程中剔除带有缺失值的观测量;Excludecasespairwise表示只有当一个观测量的全部聚类变量值均缺失时才剔除,否则根据所有其他非缺失变量值分配到最近的一类中去。
如图所示,选中所需选项后,单击Continue返回主对话框。
(4)点击主对话框Save选项,用于设置需要输出结果的变量,默认变量名为qcl_1;其中,Clustermembership用于建立一个新变量qcl_2;表示各观测量与其所属类中心的欧几里得距离。
如图所示,选中所需选项后,单击Continue返回主对话框
(5)单击OK,运行K均值聚类分析程序。
(二)输出结果
(1)表5.22为初始类中心表,通过该表可以得到5个变量的初始类中心。
表5.22初始类中心
(2)表5.23为迭代历史表。
该表给出迭代过程中类中心的变动量。
可以看出本次聚类过程进行2次迭代,就收敛了。
表5.23迭代历史
(3)表5.24为聚类成员,该表给出了样本观测量所属类别以及与所属类中心的距离。
从表中可以看出,将9个地级市分为4类,福州和泉州为第1类,厦门和漳州为第2类,莆田、南平和宁德为第3类,三明和龙岩为第4类。
表5.24聚类成员
(4)表5.25和表5.26为最终聚类中心及最终类中心之间的距离
表5.25最终聚类中心
表5.26为最终类中心之间的聚类
(5)表5.27为方差分析表,依据该表可以判断所分的类别是否合理。
从表5.27可以看出,分类后各变量在不同类别之间的差异显著(红色框部分),也说明5个变量对分类的贡献较显著。
表5.27方差分析表
(6)表5.28给出了没类所包含样品数。
表5.28每类所包含样品数
五、实验总结
本次SPSS课程实践让我对这门软件有了较深刻的认识,在做聚类分析的实验之前,我以为不会难做,就像以前做的统计实验一样,导入教材中搜集的数据后,将数据输入SPSS软件,经过一些操作输出结果,然后分析一下,再将实验报告做好就可以了,没想到在输出结果的时候,结果与教材课本上的不一致。
原因是在变量视图中对小数点没有设定好,一开始以为是软件问题,后来在同学帮助下发现,在变量视图上设定好数据中的小数点。
SPSS是一款菜单式的软件,操作简便,易于理解。
实践过程中我掌握如何利用SPSS进行数据简单处理,进行各种数据分析,让我认识到SPSS对解决简单的实际问题有很大的帮助。
实践过程中由于缺少数据,大部分表格都是从教材中搜集的,在对结果分析中我做的还不是很完善,希望老师能够予以指导,我会在以后的学习中继续加深自己对这门软件的掌握和理解,做到学以致用。
实验报告成绩(百分制)__________实验指导教师签字:
__________
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析