模糊聚类文档格式.doc
- 文档编号:4640501
- 上传时间:2023-05-03
- 格式:DOC
- 页数:17
- 大小:1.16MB
模糊聚类文档格式.doc
《模糊聚类文档格式.doc》由会员分享,可在线阅读,更多相关《模糊聚类文档格式.doc(17页珍藏版)》请在冰点文库上搜索。
②最大最小法
③算术平均最小法
。
④几何平均最小法
以上3种方法中要求,否则也要做适当变换。
⑤数量积法
,
其中。
⑥相关系数法
其中,。
⑦指数相似系数法
其中,
而。
(2)距离法
①直接距离法
,
其中为适当选取的参数,使得,表示他们之间的距离。
经常用的距离有
●海明距离
。
●欧几里得距离
●切比雪夫距离
②倒数距离法
其中为适当选取的参数,使得。
③指数距离法
。
3、第三步:
聚类(求动态聚类图)
(1)基于模糊等价矩阵聚类方法
①传递闭包法
根据标定所得的模糊矩阵还要将其改造称模糊等价矩阵。
用二次方法求的传递闭包,即=。
再让由大变小,就可形成动态聚类图。
②布尔矩阵法[10]
布尔矩阵法的理论依据是下面的定理:
定理2.2.1设是上的一个相似的布尔矩阵,则具有传递性(当是等价布尔矩阵时)矩阵在任一排列下的矩阵都没有形如的特殊子矩阵。
布尔矩阵法的具体步骤如下:
①求模糊相似矩阵的截矩阵.
②若按定理2.2.1判定为等价的,则由可得在水平上的分类,若判定为不等价,则在某一排列下有上述形式的特殊子矩阵,此时只要将其中特殊子矩阵的0一律改成1直到不再产生上述形式的子矩阵即可。
如此得到的为等价矩阵。
因此,由可得水平上的分类
(2)直接聚类法
所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包,也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。
其步骤如下:
①取(最大值),对每个作相似类,且
=,
即将满足的与放在一类,构成相似类。
相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现
,.
此时只要将有公共元素的相似类合并,即可得水平上的等价分类。
②取为次大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于的等价分类。
③取为第三大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于的等价分类。
④以此类推,直到合并到成为一类为止。
二、最佳阈值的确定
在模糊聚类分析中对于各个不同的,可得到不同的分类,许多实际问题需要选择某个阈值,确定样本的一个具体分类,这就提出了如何确定阈值的问题。
一般有以下两个方法:
①按实际需要,在动态聚类图中,调整的值以得到适当的分类,而不需要事先准确地估计好样本应分成几类。
当然,也可由具有丰富经验的专家结合专业知识确定阈值,从而得出在水平上的等价分类
②用F统计量确定最佳值。
[11]
设论域为样本空间(样本总数为),而每个样本有个特征:
,。
于是得到原始数据矩阵,如下表所示,其中,称为总体样本的中心向量。
样
本
指标
12km
设对应于值的分类数为,第类的样本数为,第类的样本记为:
,第类的聚类中心为向量,其中为第个特征的平均值,即
,,
作统计量
,
其中
为与间的距离,为第类中第个样本与其中心间的距离。
称为统计量,它是遵从自由度为,的分布。
它的分子表征类与类之间的距离,分母表征类内样本间的距离。
因此,值越大,说明类与类之间的距离越大;
类与类间的差异越大,分类就越好。
基于模糊聚类分析的多属性决策方法的实际应用
聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法。
由于聚类分析的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊性,对带有模糊特征的事物进行聚类分析,分类过程中不是仅仅考虑事物之间有无关系,而是考虑事物之间关系的深浅程度,显然用模糊数学的方法处理更为自然,因此称为模糊聚类分析。
第一节雨量站问题
一、问题的提出
某地区设置有11个雨量站,其分布图见图1,10年来各雨量站所测得的年降雨量列入表1中。
现因经费问题,希望撤销几个雨量站,问撤销那些雨量站,而不会太多的减少降雨信息?
图1雨量站分布图
表1各雨量站10年间测得的降雨量
年序号
1
276
324
159
413
292
258
311
303
175
243
320
2
251
287
349
344
310
454
285
451
402
307
470
3
192
433
290
563
479
502
221
220
411
232
4
246
281
267
273
315
327
352
5
291
388
330
410
603
6
466
158
224
178
164
203
240
278
350
7
432
401
361
381
301
199
421
8
453
365
357
452
384
420
482
228
360
316
252
9
271
308
283
201
179
430
342
185
10
406
235
520
442
358
343
282
371
二、问题的分析
应该撤销那些雨量站,涉及雨量站的分布,地形,地貌,人员,设备等众多因素。
我们仅考虑尽可能地减少降雨信息问题。
一个自然的想法是就10年来各雨量站所获得的降雨信息之间的相似性,对全部雨量站进行分类,撤去“同类”(所获降雨信息十分相似)的雨量站中“多余”的站。
问题求解假设为使问题简化,特作如下假设
①每个观测站具有同等规模及仪器设备;
②每个观测站的经费开支均等;
具有相同的被裁可能性。
分析:
对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分析,原始数据如上。
三、问题的解决
求解步骤:
1、数据的收集
原始数据如表1所示。
2、建立模糊相似矩阵
利用相关系数法,构造模糊相似关系矩阵,其中
=
其中=,=1,2,…,11。
=,=1,2,…,11。
取,代入公式得=0.839,由于运算量巨大用C语言编程计算出其余数值,得模糊相似关系矩阵,具体程序如下
#include<
stdio.h>
math.h>
doubler[11][11];
doublex[11];
voidmain()
{inti,j,k;
doublefenzi=0,fenmu1=0,fenmu2=0,fenmu=0;
intyear[10][11]={276,324,159,413, 292 ,258,311,303,175,243,320,
251 ,287,349,344,310,454,285,451,402,307,470,
192 ,433,290,563,479,502,221,220,320,411,232,
246 ,232,243,281,267,310,273,315,285,327,352,
291,311,502,388 ,330,410,352,267,603,290,292,
466 ,158,224,178,164,203,502,320,240,278,350,
258,327,432 ,401,361,381,301,413,402,199,421,
453,365,357 ,452,384,420,482,228,360,316,252,
158 ,271,410,308,283,410,201,179,430,342,185,
324,406,235,520 ,442,520,358,343,251,282,371};
for(i=0;
i<
11;
i++)
{for(k=0;
k<
10;
k++)
{x[i]=x[i]+year[k][i];
}
x[i]=x[i]/10;
{for(j=0;
j<
j++)
{for(k=0;
{fenzi=fenzi+fabs((year[k][i]-x[i])*(year[k][j]-x[j]));
fenmu1=fenmu1+(year[k][i]-x[i])*(year[k][i]-x[i]);
fenmu2=fenmu2+(year[k][j]-x[j])*(year[k][j]-x[j]);
fenmu=sqrt(fenmu1)*sqrt(fenmu2);
r[i][j]=fenzi/fenmu;
}
fenmu=fenmu1=fenmu2=fenzi=0;
}}
for(i=0;
{for(j=0;
{printf("
%6.3f"
r[i][j]);
printf("
\n"
);
getchar();
得到模糊相似矩阵
1.0000.8390.5280.8440.8280.7020.9950.6710.4310.5730.712
0.8391.0000.5420.9960.9890.8990.8550.5100.4750.6170.572
0.5280.5421.0000.5620.5850.6970.5710.5510.9620.6420.568
0.8440.9960.5621.0000.9920.9080.8610.5420.4990.6390.607
0.8280.9890.5850.9921.0000.9220.8430.5260.5120.6860.584
0.7020.8990.6970.9080.9221.0000.7260.4550.6670.5960.511
0.9950.8550.5710.8610.8430.7261.0000.6760.4890.5870.719
0.6710.5100.5510.5420.5260.4550.6761.0000.4670.6780.994
0.4310.4750.9620.4990.5120.6670.4890.4671.0000.4870.485
0.5730.6170.6420.6390.6860.5960.5870.6780.4871.0000.688
0.7120.5720.5680.6070.5840.5110.7190.9940.4850.6881.000
对这个模糊相似矩阵用平方法作传递闭包运算,求即。
3、聚类
注:
是对称矩阵,故只写出它的下三角矩阵
取=0.996,则
在置信水平为0.996的阈值下相似度为1,故同属一类,所以此时可以将观测站分为9类{,},{},{},{},{},{},{},{},{}。
降低置信水平,对不同的作同样分析,得到:
=0.995时,可分为8类,即{,,},{},{},{},{},{},{},{}。
=0.994时,可分为7类{,,},{,},{},{},{},{},{}。
=0.962时,可分为6类{,,},{,},{,},{},{},{}。
=0.719时,可分为5类{,,},{,},{,},{,},{}。
第二节成绩评价问题
某高中高二有7个班级,学生成绩的好与差,没有明确的评定界限,并且班级间成绩好坏的表现具有一定的模糊不确定性。
解决上述问题可运用模糊聚类分析方法。
现以7个班级某次其中考试的四门主课成绩为依据,对7个班级成绩好坏的相关程度分类。
设7个班级组成一个分类集合:
分别代表1班到7班。
每个班级成绩均是四门基础课(语文、数学、英语、综合)作为四项统计指标,即有这里表示为第个班级的第门基础课指标。
这四项成绩指标为:
语文平均成绩,数学平均成绩,英语平均成绩,综合平均成绩。
各班级成绩指标值见表1。
表17个班4门基础课的成绩指标
1、数据标准化[12]
采用极差变换,
(1)
式中是第i个班级第门基础课平均成绩的原始数据,和分别为不同班级的同一门基础课平均成绩的最大值和最小值。
为第个班级第门基础课平均成绩指标的标准化数值。
当时,,当时,。
表2平均成绩指标值的标准化数值
2、用最大最小法建立相似矩阵
计算模糊相似矩阵R,根据标准化数值建立各班级之间四门基础课成绩指标的相似关系矩阵,采用最大最小法来计算:
其中是表示第个班级与第个班级在四门基础课成绩指标上的相似程度的量。
取,=0,其余运算量可以通过MATLAB编程运算,程序如下:
[13]
clc
clearall
meanp=[00.027310.61190.73680.72290.2911;
00.25530.77910.83850.45870.53411;
0.428500.849210.39660.54390.9513;
0.6605010.40120.34880.08640.7731];
%平均成绩指标值的标准化数值
Ca=[0;
0;
0];
%初始化比较的数据
Cb=[0;
mina=[0];
maxa=[0];
fori=1:
forj=1:
form=1:
Ca=meanp(m,i);
Cb=meanp(m,j);
mina(1,m)=min(Ca,Cb);
%计算任意两横的最小值
maxa(1,m)=max(Ca,Cb);
%计算任意两横的最大值
end
R(i,j)=sum(mina)/sum(maxa);
%计算,即相似程度的量
end
R%显示相似矩阵
得相似矩阵:
3、改造相似关系为等价关系进行聚类分析
矩阵满足自反性和对称性,但不具有传递性,为求等价矩阵,要对进行改造,只需求其传递闭包。
由平方法可得
最后可得到。
故传递闭包为,它就是模糊等价矩阵。
用其可对7个班级进行聚类分析。
令由1降至0,写出,按分类元素和归同一类的条件是
取=1,则有
U可分7类,,,,,,。
降低置信水平,对不同的作同样分析,得到
取=0.77,U可分6类,,,,,。
取=0.73,U可分5类,,,,。
取=0.69,U可分4类,,,。
取=0.61,U可分3类,,。
取=0.36,U可分2类,。
取=0.15,U可分1类。
按不同的置信水平对7个班级进行模糊聚类,将会得到不同的分类结果
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模糊