欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOC文档下载
    分享到微信 分享到微博 分享到QQ空间

    模糊聚类分析的理论、方法与应用研究.doc

    • 资源ID:18836130       资源大小:1.01MB        全文页数:17页
    • 资源格式: DOC        下载积分:15金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    模糊聚类分析的理论、方法与应用研究.doc

    1、模糊聚类分析的理论、方法与应用研究摘要:在科学技术、经济管理中常常要按一定的标准进行分类。对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。本文旨在运用模糊聚类分析的方法,贯彻其理论,对具体的例子进行分析和研究。关键词:聚类分析,模糊,应用,方法。前言:聚类就是把具有相似性质的事物区分开加以分类。聚类分析就是用数学方法研究和处理给定对象的分类,“人以群分,物以类聚”,聚类问题是一个古老的问题,是伴随着人类产生和发展不断深化的一个问题。人类要认识世界就必须要区分不同的

    2、事物并认识事物间的,聚类就是把具有相似性质的事物区分开加以分类。经典分类学往往是从单因素或有限的几个因素出发,凭经验和专业对事物分类。这种分类具有非此即彼的特性,同一事物归属且仅归属所划定类别中的一类,这种分类的类别界限是清晰的。随着着人们认识的深入,发现这种分类越来越不适用于具有模糊性的分类间题,如把人按身高分为“高个子的人,“矮个子的人”,“不高不矮的人”。如何判别特定的一个人的类别便产生了经典分类学解决不了的困难。模糊数学的产生为上述软分类提供了数学基础,由此产生了模糊聚类分析。我们把应用普通数学方法进行分类的聚类方法称为普通聚类分析,而把应用模糊数学方法进行分析的聚类分析称为模糊聚类分

    3、析。随着模糊数学传人我国,模糊聚类分析也传人了我国。其应用领域已包括了天气预报、气象分析、模式识别、生物、医学、化学等诸多领域。一、 聚类分析和模糊聚类分析聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法。由于聚类分析的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊性,对带有模糊特征的事物进行聚类分析,分类过程中不是仅仅考虑事物之间有无关系,而是考虑事物之间关系的深浅程度,显然用模糊数学的方法处理更为自然,因此称为模糊聚类分析。二、 模糊聚类分析的一般步骤1、第一步:数据标准化(1) 数据矩阵 设论域为被分类对象,每个对象又有个指标表示其性状,即 ,于是,得到原始数据

    4、矩阵为 。其中表示第个分类对象的第个指标的原始数据。(2) 数据标准化 在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间上。通常有以下几种变换: 平移标准差变换 其中 , 。 经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但是,再用得到的还不一定在区间上。 平移极差变换 ,显然有,而且也消除了量纲的影响。 对数变换 取对数以缩小变量间的数量级。2、第二步:标定(建立模糊相似矩阵) 设论域,依照传统聚类方法确定相似系

    5、数,建立模糊相似矩阵,与的相似程度。确定的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。(1) 相似系数法 夹角余弦法 。 最大最小法 。 算术平均最小法 。 几何平均最小法 。以上3种方法中要求,否则也要做适当变换。 数量积法 ,其中 。 相关系数法 ,其中 ,。 指数相似系数法 ,其中 ,而 。(2) 距离法 直接距离法 ,其中为适当选取的参数,使得,表示他们之间的距离。经常用的距离有 海明距离 。 欧几里得距离 。 切比雪夫距离 。 倒数距离法 。其中为适当选取的参数,使得。 指数距离法 。3、第三步:聚类(求动态聚类图)(

    6、1)基于模糊等价矩阵聚类方法 传递闭包法 根据标定所得的模糊矩阵还要将其改造称模糊等价矩阵。用二次方法求的传递闭包,即=。再让由大变小,就可形成动态聚类图。 布尔矩阵法10 布尔矩阵法的理论依据是下面的定理: 定理2.2.1 设是上的一个相似的布尔矩阵,则具有传递性(当是等价布尔矩阵时)矩阵在任一排列下的矩阵都没有形如的特殊子矩阵。 布尔矩阵法的具体步骤如下: 求模糊相似矩阵的截矩阵. 若按定理2.2.1判定为等价的,则由可得在水平上的分类,若判定为不等价,则在某一排列下有上述形式的特殊子矩阵,此时只要将其中特殊子矩阵的0一律改成1直到不再产生上述形式的子矩阵即可。如此得到的为等价矩阵。因此,

    7、由可得水平上的分类 (2) 直接聚类法 所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包,也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。其步骤如下: 取(最大值),对每个作相似类,且 =,即将满足的与放在一类,构成相似类。相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现 ,.此时只要将有公共元素的相似类合并,即可得水平上的等价分类。 取为次大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于的等价分类。 取为第三大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的

    8、类合并,将所有的这些情况合并后,即得到对应于的等价分类。 以此类推,直到合并到成为一类为止。二、最佳阈值的确定 在模糊聚类分析中对于各个不同的,可得到不同的分类,许多实际问题需要选择某个阈值,确定样本的一个具体分类,这就提出了如何确定阈值的问题。一般有以下两个方法: 按实际需要,在动态聚类图中,调整的值以得到适当的分类,而不需要事先准确地估计好样本应分成几类。当然,也可由具有丰富经验的专家结合专业知识确定阈值,从而得出在水平上的等价分类 用F统计量确定最佳值。11 设论域为样本空间(样本总数为),而每个样本有个特征:,。于是得到原始数据矩阵,如下表所示,其中,称为总体样本的中心向量。 样本 指

    9、 标1 2 k m 设对应于值的分类数为,第类的样本数为,第类的样本记为:,第类的聚类中心为向量,其中为第个特征的平均值,即 ,作统计量 ,其中 为与间的距离,为第类中第个样本与其中心间的距离。称为统计量,它是遵从自由度为,的分布。它的分子表征类与类之间的距离,分母表征类内样本间的距离。因此,值越大,说明类与类之间的距离越大;类与类间的差异越大,分类就越好。三、基于模糊聚类分析的实际应用成绩评价问题一、问题的提出某高中高二有7个班级,学生成绩的好与差,没有明确的评定界限,并且班级间成绩好坏的表现具有一定的模糊不确定性。二、问题的分析解决上述问题可运用模糊聚类分析方法。现以7个班级某次其中考试的

    10、四门主课成绩为依据,对7个班级成绩好坏的相关程度分类。设7个班级组成一个分类集合:分别代表1班到7班。每个班级成绩均是四门基础课(语文、数学、英语、综合)作为四项统计指标,即有这里表示为第个班级的第门基础课指标。这四项成绩指标为:语文平均成绩,数学平均成绩,英语平均成绩,综合平均成绩。各班级成绩指标值见表1。表1 7个班4门基础课的成绩指标 三、问题的解决1、数据标准化采用极差变换, (1)式中是第i个班级第门基础课平均成绩的原始数据,和分别为不同班级的同一门基础课平均成绩的最大值和最小值。为第个班级第门基础课平均成绩指标的标准化数值。当时,当 时,。 表2 平均成绩指标值的标准化数值2、用最

    11、大最小法建立相似矩阵 计算模糊相似矩阵R,根据标准化数值建立各班级之间四门基础课成绩指标的相似关系矩阵,采用最大最小法来计算: 其中是表示第个班级与第个班级在四门基础课成绩指标上的相似程度的量。取,=0,其余运算量可以通过MATLAB编程运算。得相似矩阵: 3、改造相似关系为等价关系进行聚类分析矩阵满足自反性和对称性,但不具有传递性,为求等价矩阵,要对进行改造,只需求其传递闭包。由平方法可得最后可得到。故传递闭包为,它就是模糊等价矩阵。用其可对7个班级进行聚类分析。令由1降至0,写出,按分类元素和归同一类的条件是 取=1,则有U可分7类,。降低置信水平,对不同的作同样分析,得到取=0.77,

    12、U可分6类,。取=0.73, U可分5类, 。取=0.69, U可分4类, 。取=0.61, U可分3类, 。取=0.36, U可分2类, 。取=0.15, U可分1类。按不同的置信水平对7个班级进行模糊聚类,将会得到不同的分类结果雨量站问题一、问题的提出某地区设置有11个雨量站,其分布图见图1,10年来各雨量站所测得的年降雨量列入表1中。现因经费问题,希望撤销几个雨量站,问撤销那些雨量站,而不会太多的减少降雨信息? 图1 雨量站分布图表1 各雨量站10年间测得的降雨量年序号127632415941329225831130317524332022512873493443104542854514

    13、02307470319243329056347950222122032041123242462322432812673102733152853273525291311502388330410352267603290292646615822417816420350232024027835072583274324013613813014134021994218453365357452384420482228360316252915827141030828341020117943034218510324406235520442520358343251282371二、问题的分析应该撤销那些雨量站,涉及

    14、雨量站的分布,地形,地貌,人员,设备等众多因素。我们仅考虑尽可能地减少降雨信息问题。一个自然的想法是就10年来各雨量站所获得的降雨信息之间的相似性,对全部雨量站进行分类,撤去“同类”(所获降雨信息十分相似)的雨量站中“多余”的站。问题求解 假设为使问题简化,特作如下假设 每个观测站具有同等规模及仪器设备; 每个观测站的经费开支均等;具有相同的被裁可能性。分析:对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分析,原始数据如上。三、问题的解决求解步骤:1、数据的收集 原始数据如表1所示。2、建立模糊相似矩阵利用相关系数法,构造模糊相似关系矩阵,其中 其中,1,2,,11。 ,1,2,,

    15、11。 取,代入公式得=0.839,得到模糊相似矩阵1.000 0.839 0.528 0.844 0.828 0.702 0.995 0.671 0.431 0.573 0.712 0.839 1.000 0.542 0.996 0.989 0.899 0.855 0.510 0.475 0.617 0.572 0.528 0.542 1.000 0.562 0.585 0.697 0.571 0.551 0.962 0.642 0.568 0.844 0.996 0.562 1.000 0.992 0.908 0.861 0.542 0.499 0.639 0.607 0.828 0.98

    16、9 0.585 0.992 1.000 0.922 0.843 0.526 0.512 0.686 0.584 0.702 0.899 0.697 0.908 0.922 1.000 0.726 0.455 0.667 0.596 0.511 0.995 0.855 0.571 0.861 0.843 0.726 1.000 0.676 0.489 0.587 0.719 0.671 0.510 0.551 0.542 0.526 0.455 0.676 1.000 0.467 0.678 0.994 0.431 0.475 0.962 0.499 0.512 0.667 0.489 0.46

    17、7 1.000 0.487 0.485 0.573 0.617 0.642 0.639 0.686 0.596 0.587 0.678 0.487 1.000 0.688 0.712 0.572 0.568 0.607 0.584 0.511 0.719 0.994 0.485 0.688 1.000对这个模糊相似矩阵用平方法作传递闭包运算,求 即。3、聚类注:是对称矩阵,故只写出它的下三角矩阵取0.996,则在置信水平为0.996的阈值下相似度为1,故同属一类,所以此时可以将观测站分为9类,,,,,,。降低置信水平,对不同的作同样分析,得到:0.995时,可分为8类,即,,,,,,。=0.9

    18、94时,可分为7类,,, ,,,。=0.962时,可分为6类,,, ,, ,。0.719时,可分为5类,,, ,,,。三、 总结从模糊理论诞生到今天四十年来,模糊理论和技术得到了迅速的发展,在这个领域国内外许多学者做了大量卓有成效的研究工作。模糊理论与技术的一个突出优点就是能较好地描述和模仿人的思维方式,并能总结和反映人的体会和经验,对复杂事务和系统可进行模糊度量、模糊识别、模糊推理、模糊控制与模糊决策。尤其是将模糊理论与人工智能在神经网络和专家系统等方面相互结合的研究已深入到计算机技术、多媒体技术、自动控制技术以及信息采集与处理技术等一系列高新技术的开发、研究与利用,为推动决策科学、应用科学、管理科学与社会科学的进步作出了极大的贡献。这种学术理论体系不断完善的新成果正在迅速地转变为生产力,促进了全人类社会物质文明的不断发展。参考文献:1、 肖筱南. 现代信息决策方法M. 北京:北京大学出版社, 2006.2、 李柏年. 模糊数学及其应用M. 合肥:合肥工业大学出版社, 2007.3、 百度百科. 决策分析EB/OL. 4、 维基百科. 数据聚类EB/OL. http:/zh.wikipedia.org/wiki/%E6%95%B0%E6%8D%AE%E8%81%9A%E7%B1%BB.


    注意事项

    本文(模糊聚类分析的理论、方法与应用研究.doc)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开