书签分享收藏举报版权申诉 / 38

立即下载加入VIP,免费下载

当前位置：首页 > 医药卫生 > 基础医学 > 半监督谱聚类特征向量选择算法.docx

半监督谱聚类特征向量选择算法.docx

文档编号：17666178
上传时间：2023-07-27
格式：DOCX
页数：38
大小：42.20KB

半监督谱聚类特征向量选择算法.docx

《半监督谱聚类特征向量选择算法.docx》由会员分享，可在线阅读，更多相关《半监督谱聚类特征向量选择算法.docx（38页珍藏版）》请在冰点文库上搜索。

半监督谱聚类特征向量选择算法.docx

半监督谱聚类特征向量选择算法

第２４卷第ｌ期

２０１１年２月

模式识别与人工智能

ＰＲ＆ＡＩ

Ｖ０１．２４Ｆｅｂ

Ｎｏ．１２０１ｌ

半监督谱聚类特征向量选择算法木

赵凤

焦李成

刘汉强

公茂果

（西安电子科技大学智能感知与图像理解教育部重点实验室西安７１００７１）

摘要对于一个Ｋ类问题，Ｎｇ．Ｊｏｒｄａｎ．Ｗｅｉｓｓ（ＮＪＷ）谱聚类算法通常采用数据规范化亲和度矩阵的前Ｋ个最大特征值对应的特征向量作为数据的一种表示．然而，对于某些模式识别问题，这Ｋ个特征向量不一定能够体现原始数据的结构．文中提出一种半监督谱聚类特征向量选择算法．该算法利用一定量的监督信息寻找能够体现数据结构的特征向量组合，进而获得优于传统谱聚类算法的聚类性能．ＵＣＩ标准数据集和ＭＮＩＳＴ手写体数据集上的仿真实验验证该算法的有效性和鲁棒性．

关键词谱聚类，特征向量选择，半监督学习，免疫克隆选择中图法分类号ＴＰ

１８１

Ｓｅｍｉ－ＳｕｐｅｒｖｉｓｅｄＥｉｇｅｎｖｅｃｔｏｒＳｅｌｅｃｔｉｏｎｆｏｒＳｐｅｃｔｒａｌＣｌｕｓｔｅｒｉｎｇ

ＺＨＡＯＦｅｎｇ，ＪＩＡＯＬｉ—Ｃｈｅｎｇ，ＬＩＵ

Ｈａｎ－Ｑｉａｎｇ，ＧＯＮＧ

Ｍａｏ—Ｇｕｏ

Ｅｄｕｃａｔｉｏｎ

（Ｋｅｙ

Ｌａｂｏｒａｔｏｒｙ

ｏｆＩｎｔｅｌｌｉｇｅｎｔＰｅｒｃｅｐｔｉｏｎａｎｄＩｍａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇｏｆＭｉｎｉｓｔｒｙｏｆ

ｏｆ

Ｃｈｉｎａ，

ＸｉｄｉａｎＵｎｉｖｅｒｓｉｔｙ，Ｘｉ＂ａｎ７１００７１）

ＡＢＳＴＲＡＣＴ

Ｆｏｒ

ａ

Ｋｃｌｕｓｔｅｒｉｎｇ

ｐｒｏｂｌｅｍ，Ｎｇ－Ｊｏｒｄａｎ・Ｗｅｉｓｓ（ＮＪＷ）ｓｐｅｃｔｒａｌ

ｔｏ

ｃｌｕｓｔｅｒｉｎｇ

ｍｅｔｈｏｄ

ａｄｏｐｔｓ

ｔｈｅ

ａ

ｅｉｇｅｎｖｅｃｔｏｒｓｃｏｒｒｅｓｐｏｎｄｉｎｇ

ｔｈｅＫｌａｒｇｅｓｔｅｉｇｅｎｖａｌｕｅｓｏｆｔｈｅｎｏｒｍａｌｉｚｅｄａｆｆｉｎｉｔｙｍａｔｒｉｘｄｅｒｉｖｅｄｆｒｏｍ

ｃａｎ

ｄａｔａｓｅｔ

ｔｈｅ

ａｓａ

ｎｏｖｅｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｔｈｅｏｒｉｇｉｎａｌｄａｔａ．Ｈｏｗｅｖｅｒ，ｔｈｅｓｅＫｅｉｇｅｎｖｅｅｔｏｒｓ

ｎｏｔ

ａｌｗａｙｓｒｅｆｌｅｃｔ

ｓｔｒｕｃｔｕｒｅ

ｏｆｔｈｅｏｒｉｇｉｎａｌｄａｔａｆｏｒｓｏｍｅｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎｐｒｏｂｌｅｍｓ．Ｉｎｔｈｉｓｐａｐｅｒ，ａｓｅｍｉ—ｓｕｐｅｒｖｉｓｅｄ

ｕｔｉｌｉｚｅｓｓｏｍｅ

ａｍｏｕｎｔ

ｅｉｇｅｎｖｅｃｔｏｒｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｆｏｒｓｐｅｃｔｒａｌｃｌｕｓｔｅｒｉｎｇｉｓｐｒｏｐｏｓｅｄ．Ｔｈｉｓｍｅｔｈｏｄｓｕｐｅｒｖｉｓｅｄｉｎｆｏｒｍａｔｉｏｎ

ｔｏ

ｏｆ

ｓｅａｒｃｈｔｈｅｅｉｇｅｎｖｅｃｔｏｒｃｏｍｂｉｎａｔｉｏｎｗｈｉｃｈ

ｍｏｒｅ

ｃａｎ

ｒｅｆｌｅｃｔｔｈｅｓｔｒｕｃｔｕｒｅｏｆｔｈｅ

ｏｒｉｇｉｎａｌ

ｄａｔａ，ａｎｄｔｈｅｎｏｂｔａｉｎｓＥｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓ

ｏｎ

ｓａｔｉｓｆｙｉｎｇ

ｐｅｒｆｏｒｍａｎｃｅ

ｔｈａｎ

ｔｈｅｃｌａｓｓｉｃａｌｓｐｅｃｔｒａｌｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓ．

ＵＣＩｂｅｎｃｈｍａｒｋｄａｔａｓｅｔｓａｎｄＭＮＩＳＴｈａｎｄｗｒｉｔｔｅｎ

ｄｉｇｉｔｓ

ｄａｔａｓｅｔｓｓｈｏｗｔｈａｔｔｈｅ

ｐｒｏｐｏｓｅｄｍｅｔｈｏｄ

Ｋｅｙ

ｉｓｅｆｆｅｃｔｉｖｅａｎｄｒｏｂｕｓｔ．

Ｗｏｒｄｓ

Ｓｐｅｃｔｒａｌ

Ｓｅｌｅｃｔｉｏｎ

Ｃｌｕｓｔｅｒｉｎｇ，ＥｉｇｅｎｖｅｃｔｏｒＳｅｌｅｃｔｉｏｎ，Ｓｅｍｉ—ＳｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇ，ＩｍｍｕｎｅＣｌｏｎｅ

奉国家９７３计划项目（Ｎｏ．２００６ＣＢ７０５７０７）、国家８６３计划项目（Ｎｏ．２００８ＡＡＯＩＺｌ２５，２００９ＡＡｌ２２２１０）、国家自然科学基金项目（Ｎｏ．６０７０２０６２，６０９７００６７）、教育部重点项目（Ｎｏ．１０８１１５）和高等学校学科创新引智计划项目（１ｌｌ计划）（Ｎｏ．１３０７０４８）资助收稿门期：

２００９—１０—１９；修心口期：

２０１０—０４—２０

作者简介赵凤，女，１９８０年生，博士研究生，主要研究方向为机器学习、模糊信息处理和图像处理．Ｅ．ｍａｉｌ：

ｆｅｎｇｚｌｌｌ９＠ｓｉｎａ．ｃｏｒｎ．焦李成，男，１９５９年生，教授．博士牛导师，主要研究方向为自然计算、信号和图像处理、智能信息处理等．刘汉强，男，１９８１年生，博上研究生，主要研究方向为模式识别、机器学习和图像处理．公茂果，男，１９７９年生，教授，博士生导师，主要研究方向为计算智能、数据挖掘、模式识别和图像处理．Ｅ—ｍａｉｌ：

ｇｏｎｇ＠ｉｅｅｅ．ｏｒｇ．

万方数据

１期赵凤等：

半监督谱聚类特征向量选择算法

４９

１

引言

谱聚类是一种基于两点间相似关系的聚类方法…．该类算法利用数据的规范化亲和度矩阵的特征向量进行聚类，获得图谱划分准则在放松的连续域中的全局最优解．与其它聚类方法相比，谱聚类算法最大的优势是具有识别非高斯分布的能力，非常适合于许多实际问题，已成功应用到并行计算旧Ｊ，超大规模集成电路（Ｖｅｒｙ

ＬａｒｇｅＳｃａｌｅ

ＩｎｔｅｇｒａｔｅｄＣｉｒ－

ｃｕｉｔｓ，ＶＬＳＩ）设计∞ｊ，文本挖掘Ｈ。

Ｊ，生物信息挖掘∞１和图像分割＂１等方面．比较经典的谱聚类算法有２０００年Ｓｈｉ和Ｍａｌｉｋ０７ｊ提出的ｓＭ算法和２００２年Ｎｇ等旧１提出的ｋ－ｗａｙ划分的Ｎｇ—Ｊｏｒｄａｎ—Ｗｅｉｓｓ算法（简称为ＮＪＷ算法）．此外，为解决谱聚类不适用于大规模数据的问题，２００４年Ｆｏｗｌｋｅｓ等一１提出使用ＮｙｓｔｒｔＪｍ逼近方法减少求解特征值和特征向量的计算复杂度．为利用样本先验信息来改善谱聚类算法的聚类性能，２００７年王玲等。

ｍ’通过设计一种基于密度敏感的距离测度并结合成对限制信息，提出一种密度敏感的半监督谱聚类算法（Ｄｅｎｓｉｔｙ—Ｓｅｎｓｉｔｉｖｅ

Ｓｅｍｉ—ＳｕｐｅｒｖｉｓｅｄＳｐｅｃｔｒａｌ

Ｃｌｕｓｔｅｒｉｎｇ，ＤＳ—ＳＳＣ）．对于

一个Ｋ类问题，ＮＪＷ算法通常采用数据规范化亲和度矩阵的前Ｋ个最大特征值对应的特征向量作为数据的一个表示．本文在ＮＪＷ算法的基础上，希望利用一定量的监督信息指导谱聚类的特征向量选择，进而提高谱聚类的算法性能．

Ｓｕｎ等…１提出对主分量分析（ＰＣＡ）提取的特征进行选择，即不再使用特征值较大的几个特征向量，而是采用遗传算法（ＧＡ）搜索ＰＣＡ空间，找到能够反映目标概念信息的特征向量子集作为主成分方向．随后，ｕ等¨２。

提出采用ＧＡ对分别利用ＰＣＡ和偏最小二乘（Ｐａａｉａｌ

Ｌｅａｓｔ

Ｓｑｕａｒｅ，ＰＬＳ）方法获得的

特征进行联合选择的方法．最近有文献指出，谱聚类算法的特征向量也是需要选择的ｕ引，对于特征向量而言，并不是特征值越大，对于分类的信息量也越大，而且每个特征向量对于分类的信息量也是不同的．在文献［１３］中，作者首先定义一个相关性度量，用于衡量每个候选特征向量为分类提供的信息量，然后采用所有相关性度量值大于０．５的特征向量（称之为相关的特征向量）组成最终的特征向量组合．众所周知，由单个最优的特征组成的特征组合不一定是最优的特征组合．同样地，每个相关的特征向量可为分类提供信息，但是所有相关的特征向量不一定是一个好的特征向量组合，即它不一定能体现原始数据的结构，进而无法保证获得好的聚类性能．

万方数据

在实际应用中，我们有时可从数据中获得一定量的监督信息．本文利用这些监督信息，提出一种半监督谱聚类特征向量选择算法（Ｓｅｍｉ－Ｓｕｐｅｒｖｉｓｅｄ

Ｅｉｇｅｎｖｅｃｔｏｒ

Ｓｅｌｅｃｔｉｏｎ

ｆｏｒ

Ｓｐｅｃｔｒａｌ

Ｃｌｕｓｔｅｒｉｎｇ，ＳＥＳ—

ＳＣ）．我们首先利用监督信息定义一个衡量特征向量组合好坏的度量准则，并把它作为适应度函数．然后采用某种优化算法来确定最优的特征向量组合．本文采用的优化算法是免疫克隆选择算法．免疫克隆选择算法【１４ｏ是模拟自然免疫系统功能的一种优化方法，它具有学习、记忆、抗体多样性等性能．由于其较强的全局搜索能力，将免疫克隆选择算法应用于谱聚类特征向量选择有可能是一个好的选择．我们在ＵＣＩ标准数据集和ＭＮＩＳＴ手写体数据集上进行仿真实验，证明本文算法可有效选择对于分类具有较大信息量的特征向量组合，获得优于传统谱聚类算法的聚类性能．

２

谱聚类特征向量选择的必要性

设Ｘ＝｛石，，戈：

，…，ｚ。

｝表示一个数据集合．谱聚

类算法对数据集ｘ进行聚类之前，需要构造亲和度矩阵，该矩阵中每个元素表示的是两两数据点之间相似性．在谱聚类算法中，一般采用高斯函数构造亲和度矩阵．需要指出的是，谱聚类算法的性能对于高斯函数尺度参数的取值非常敏感．为消除尺度参数对于谱聚类结果的影响，使得谱聚类算法的性能只受特征向量选择的影响，我们计算每个数据点的局部尺度参数¨纠来代替固定的尺度参数，数据点名ｉ和巧之间的相似性：

ｓ。

…ｐ（－等）．

（１）

对于数据点菇ｉ，将ａｒ（ｘｉ，龙ｉ，）作为戈ｉ的尺度参数ｏｒｉ，其中，石ｉ，是ｚｉ的第ｚ个邻接点，同理可得盯，．在本文中，参数ｚ设置为７．值得指出的是，对于小规模的数据集，可利用式（１）构造全连接的亲和度矩阵，即任意两个数据点之间都建立相似性关系．对于大规模的数据集，全连接的亲和度矩阵的存储代价是巨大的．在本文中，对于大规模的数据集，我们采用式（１）构造后．邻接的亲和度矩阵，即每个数据点仅与它的ｋ个最近邻之间建立相似性关系．在本文中，参数ｋ设置为ｌＯ．

ＮＪＷ算法哺１直接采用数据规范化亲和度矩阵的前Ｋ个最大特征值对应的特征向量作为数据的一个表示，然后采用Ｉ｜｝．均值聚类算法对其进行聚类．实际

模式识别与人工智能

２４卷

上，对于谱聚类算法来说，特征向量的选择是十分必要的¨３｜．图１（ａ１）和（ａ２）给出２个具有不同流形结构的人工数据集，下面以这２个数据集为例指出谱聚类特征向量选择的必要性．对于Ｔｈｒｅｅ—ｃｉｒｃｌｅ数据，ＮＪＷ算法采用特征向量１，２和３可获得完全正确的聚类结果．这是因为数据在这３个特征向量上的映射是可分的（见图ｌ（ｂ１））．实际上，对于这个数据而言，只需采用特征向量２就可获得数据的正确划分，如图ｌ（ｃ１）所示．对于Ｔｗｏ．ｍｏｏｎ数据，ＮＪＷ算法采用特征向量１和２，由于数据在这两个特征向量上的映射是不可分的（见图１（ｂ２）），因此该算法得不到正确的聚类结果．需要指出的是，Ｔｗｏ－ｍｏｏｎ数据在特征向量２，４上的映射是可分的，如图ｌ（ｃ２）所示，采用这个特征向量组合可获得完全正确的数据划分．综上所述，我

们认为ＮＪＷ算法直接采用数据规范化亲和度矩阵的前Ｋ个最大特征值对应的特征向量在某些情况下是不适用的，谱聚类的特征向量是需要进行选择的．

３

３．１

半监督谱聚类特征向量选择算法

特征向量组合的评价准则

谱聚类算法的特征向量选择需要一个定量的准

则来衡量所选特征向量组合对于聚类的有效性．在实际的模式识别问题中，我们有时可从数据集中获得一定量的监督信息．利用监督信息来指导特征向量选择应该是一个好的选择．在本文中，我们把少量具有真实标签的数据点作为监督信息，这部分数据点组成的集合称之为训练集．这里，我们给出特征向量组合的评价函数：

以ａｉ）＝Ａｌ・ａｃｃｕｒａｃｙｔ。

ｉ。

（ａｉ）＋Ａ２。

ｌｅｎ。

。

ｉ。

（ａｉ），

（２）

始聋媒抵

爆姑姆ｒ猴

其中，ａｉ表示一个特征向量组合，ａｃｃｕｒａｃｙ㈣。

（ａｉ）表示训练集在这个特征向量组合下的聚类准确率，

第一维特征

ｌｅｎ—ｉ。

（ａｉ）＝Ｋｍ—ｌｅｎｇｔｈ（ａｉ）表示没有被选择的

特征向量的数目，Ｋｍ表示初始选择的特征向量数目，即最多可选择的特征向量数目，ｌｅｎｇｔｈ（ａｉ）表示特征向量组合ａｉ中的特征向量的数目．Ａ。

和Ａ：

是调节聚类准确率和特征向量数目在评价函数中作用的权重参数，在实验中，Ａ。

和Ａ：

分别取值为１０４和１００／Ｋｍ．ａｃｃｕｒａｃｙ“。

（ａｉ）的取值范围是０—１之间，因此式（２）中的第一项的变化范围是０—１００００．由于特征向量组合中至少要包含一个特征向量，ｌｅｎ。

。

ｉ。

（ａｉ）这一项的变化范围是０～Ｋｍ一１，使得式（２）中的第二项的取值小于等于１００．这样设置Ａ。

和Ａ：

使得ａｃｃｕｒａｃｙⅢ。

（ａｉ）在这个评价函数中占据主导作用，如果多个特征向量组合下的训练集的聚类准确率相差不多时，选择那些特征向量数目较少的特征向量组合．

３．２

（ａ１）Ｔｈｒｅｅ—ｃｉｒｃｌｅ（ａ２）Ｔｗｏ・ｍｏｏｎ

∞

１．００

删ｏ．０５

囊－ｏ是

－１．００

Ｏ

（ｂ１）Ｔｈｒｅｅ．ｃｉｒｃｌｅ的特征

向量１，２，３

（ｂ１）Ｅｉｇｅｎｖｅｃｔｏｒｓ（ｂ２）Ｅｉｇｅｎｖｅｃｔｏｒｓ

（ｂ２）Ｔｗｏ・ｍｏｏｎ的特征

向量１，２

１，２，３ｏｆＴｈｒｅｅ－ｃｉｒｃｌｅ１，２ｏｆＴｗｏ—ｍｏｏｎ

基于免疫克隆的特征向量选择

我们采用免疫克隆优化算法为谱聚类选择最优

的特征向量组合，具体介绍如下．

３．２．１

二进制编码

－０．１０加．０５

数据点数目

００．０５０．１００．１５

特征向量２

给定数据集Ｘ＝｛ｚ，，戈：

，…，石。

ｆ，聚类数为尼我们把数据集彳的规范化亲和度矩阵的前Ｋｍ（Ｋｍ＞Ｋ）个最大特征值对应的特征向量组成的矩阵记为

（ｃ１）Ｔｈｒｅｅ—ｃｉｒｃｌｅ的特征向量２（ｃ２）Ｔｗｏ—ｍｏｏｎ的特征向量２，４

（ｃ１）Ｅｉｇｅｎｖｅｃｔｏｒ２ｏｆＴｈｒｅｅ—ｃｉｒｃｌｅ

‰＝｛ｌ，１，ｌ，２，…，ｌ，踟｝．来自于数据集Ｘ的监督信息

构成的训练集记为

ＸＳ＝｛％尥，…以｝，ｌ≤ｓ＜ｎ，ｌ≤少≤ｎ，１≤ｒ≤ｓ，它们的真实标签记为

（ｃ２）Ｅｉｇｅｎｖｅｃｔｏｒｓ

图Ｉ

Ｆｉｇ．１

２，４ｏｆＴｗｏ—ｍｏｏｎ

Ｔｈｒｅｅ．ｃｉｒｃｌｅ和Ｔｗｏ—ｍｏｏｎ的特征向量组合

ＥｉｇｅｎｖｅｃｔｏｒｃｏｍｂｉｎａｔｉｏｎｓｏｆＴｈｒｅｅ－ｃｉｒｃｌｅａｎｄＴｗｏ－ｍｏｏｎ

万方数据

１期赵凤等：

半监督谱聚类特征向量选择算法

ＬＳ＝％，乞，…，毛｝，知∈｛ｌ，２，…，Ｋ｝，

这个训练集在‰中的对应部分记为％，其中，％

的每一列对应一个特征向量．这里，每个抗体表示一

个特征向量组合，搜索空间为吃的列的子集．由于

每个基因位对应的模式只存在两种可能，我们采用二进制编码，编码长度为Ｋｍ（即一个特征向量对应一个基因）．如果某基因位的值是１，那么该特征向量被选中，如果值是０，则该特征向量被忽略．

３．２．２

适应度函数

设抗体种群为Ａ＝｛ａ．，ａ２，…，ａ。

｝，ａｉ（１≤ｉ≤ｍ）表示一个特征向量组合．我们将式（２）作为免疫克隆选择算法的适应度函数．谱聚类特征向量选择的目标就是寻找到一个可获得满意聚类结果的特征向量组合，这个适应度函数能够在充分保证训练集取得较高的聚类准确率的同时，尽量采用较少的特征向量．

３．２．３

克隆、变异、选择算子设计

克隆操作．在本文算法中，对于抗体种群Ａ（ｋ）＝｛ａ，（ｋ），ａ：

（ｋ），…，ａ。

（ｋ）｝

中的每个抗体ａｉ（ｋ）来说，经过克隆操作后形成的

克隆子种群为｛ａ：

（ｋ），ａ；（ｋ），…，口ｒ（ｋ）｝，其中的

每个抗体与抗体口ｉ（ｋ）具有完全相同的属性，聊为克隆比例．经过克隆操作后的种群为

Ａ

７（ｋ）＝｛《（ｋ）｝，ｉ＝１，２，…，ｍ；Ｊ＝１，２，…，凡ｃ．变异操作．由于本文算法采用二进制编码方法，

因此，变异操作定义为抗体的每一基因位以概率《（ｋ）经过变异操作后的抗体用彰（ｋ）表示．经过变异操作后的种群为

Ａ”（七）＝｛６《（ｋ）｝，ｉ＝１，２，…，ｍ；歹＝１，２，…，ｎＣ．

克隆选择操作．该操作是指从抗体经过克隆和变异后的子代中按照适应度函数的大小选择出优秀的个体，形成新的种群

Ａ（ｋ＋１）＝｛ａ１（ｋ＋１），ａ２（ｋ＋１），…，ａ。

（ｋ＋１）｝，

其中，ａｉ（ｋ＋１）是口ｉ（ｋ）和｛ｂ；（ｋ），ｂ；（ｋ），…，

６，（ｋ）｝中适应度最高的个体，ｉ＝１，２，…，ｍ．

３．３

算法实现

下面给出半监督谱聚类特征向量选择算法

（ＳＥＳＳＣ）的详细步骤．

ｓｔｅｐｌ

对于数据集Ｘ＝‰，算：

，…，并。

｝，按照

式（１）计算亲和度矩阵Ｓ并得到其对应的规范化亲和度矩阵Ｌ，将￡的前Ｋｍ（Ｋｍ＞Ｋ）个最大特征值对应的特征向量组成矩阵ｙ舯

ｓｔｅｐ２

假设来自于数据集｜ｊｆ的监督信息构成

的训练集为邪，在‰中取出训练集的对应部分，

万方数据

记为ｙ：

。

．

ｓｔｅｐ

３

免疫克隆算法初始化．设置免疫克隆

算法的初始参数；产生初始种群Ａ（０）＝｛ａ，（０），ａ：

（０），…，ａ。

（０）｝，其中，ｏｊ（０）是一个特征向量组合，表示ｙ幺的对应列被选择；设置当前迭代次数ｋ

ｓｔｅｐ

４

初始种群抗体的适应度值计算．对于

每个抗体，首先取出其在ｙｋ。

中的对应列构成矩阵ｙ’，归一化ｙ的行向量得到矩阵ｚ’．其次将ｚ’的每一行看成一个数据点，使用后一调和均值聚类算法¨６］将其聚为Ｋ类，将获得的聚类准确率记为ａｃｃｕｒａｃｙ。

商。

．然后将抗体中基因位为０的基因的数目记为ｌｅｎ。

。

舻最后按照式（２）计算抗体的适应度值．

ｓｔｅｐ

５

停机判断．判断是否满足终止条件，即

是否完成设定的迭代次数，若完成迭代次数，则终止迭代，确定由当前较优个体构成的种群为最优种群，转向ｓｔｅｐ１ｌ，否则执行ｓｔｅｐ

６．

ｓｔｅｐ

６

克隆操作．对当前的第ｋ代父代种群Ａ（ｋ）进行克隆，得到Ａ’（蠡）．

ｓｔｅｐ

７

变异操作．对Ａ’（ｋ）进行变异，得到Ａ”（后）．

ｓｔｅｐ

８

Ａ”（ｋ）中抗体的适应度值的计算．按照ｓｔｅｐ

４中的操作计算Ａ”（ｋ）中抗体的适应度值．

ｓｔｅｐ９

克隆选择操作．对抗体群Ａ（ｋ）和Ａ”（ｋ）进行选择，得到新的抗体种群Ａ（ｋ＋１）．

ｓｔｅｐ１０

ｋ＝ｋ＋ｌ，转向ｓｔｅｐ

５．

ｓｔｅｐ

ｌ１

寻找最优特征向量组合．在最优种群

中寻找适应度值最大的个体，把它作为最优特征向量组合．

ｓｔｅｐ

１２

将最优特征向量组合中出现的特征向量构成矩阵Ｖ

ｓｔｅｐ

１３

归一化ｙ的行向量，得到矩阵ｚ，即

弘南‘

ｓｔｅｐ１４将ｚ的每一行看成新的数据空间中的

一个点，使用后．调和均值聚类算法ｌｌ钊将其聚为Ｋ类，最终得到数据ｘ的划分．３．４算法复杂性分析

本文算法的复杂度主要由两部分构成：

特征向量的获取，特征向量的选择．获得Ｋｍ个特征向量的复杂度是０（Ｋｍ・ｎ２），其中凡为数据集ｘ的数据个数．进行特征向量选择的复杂度由免疫克隆算法的复杂度决定．不失一般性，假设免疫克隆选择算法的最大迭代次数为Ｇｏ，种群规模为ｍ，克隆比例为ｎＣ．免疫克隆选择算法初始化的时间复杂度为０（ｍ）．

ｐｍ（Ｏ＜ｐｍ＜１）进行取反操作．种群中的抗体

５２

模式识别与人工智能

２４卷

在每一代运行中，克隆操作的时间复杂度为Ｏ（ｍ・ｒｔｃ）；变异操作的时间复杂度为０（ｍ・眦）．克隆选择操作主要包括适应度函数的计算以及适应度函数值的排序，适应度函数计算的时间复杂度为０（ｍ・ｌｚｃ），排序算法的时间复杂度最差为０（（ｍ・ｌｉｅ）２）．因此，进行特征向量选择的复杂度为

Ｏ（ｍ）＋Ｏ（Ｃ，ａ・（ｍ・ｎｃ＋，ｎ・ｎｃ＋，ｎ・船＋（ｍ・，圮）２））．所以，本文算法的复杂度为

０（Ｋｍ・ｎ２＋Ｇ口・（ｍ・／ｚｃ）２＋３．Ｇ口．（ｍ．ｎｃ）＋，ｎ）．４

较方法，该算法利用式（１）构造亲和度矩阵，采用ｋ－ｉ靖ｌ和均值聚类算法代替Ｉ｜｝一均值算法进行后续聚类．实际上，对于本文算法来说，１０％的有标签数据仅用来指导特征向量选择，并没有用来指导数据的聚类．然而，鉴于ＮＪＷ算法是一种无监督的算法，为与它进行更加公平的比较，我们为ＮＪＷ算法设计一个新的聚类准确率度量．当ＮＪｗ算法获得的数据标签是Ｃ＝｛ｃＩ，ｃ２，…，ｃ。

｝，Ｃｉ∈｛１，２，…，Ｋ｝，１≤ｉ≤厅，我们使用

实验比较与结果分析

实验设置

为验证本文ＳＥＳＳＣ算法的有效性，我们采用

“¨∞，三＝

来修改标签ｃ并计算相应的聚类准确率，记为ａｃｃｕｒａｃｙ＿１．值得指出的是，如果采用的训练集不同，本文算法选出的特征向量也会不同．所以，对于每个数据集，本文算法进行１０次独立实验，１０次实验取得的最小、最大和平均聚类准确率分别记为ａｃｃｕｒａｃｙ＿ｍｉｎ、ａｃｃｕｒａｃｙ＿ｍａｘ和ａｃｃｕｒａｃｙ＿ａｖｅ．当然，由于训练集的不同，ａｃｃｕｒａｃｙ＿ｌ的值也会有一些差别，我们计算１０次的平均值作为ａｃｃｕｒａｃｙｊ的最终取值．

此外，我们在４．４节考察监督数据规模对于ＳＥＳＳＣ性能的影响．在４．５节部分，我们给出ＳＥＳＳＣ和ＮＪＷ两个算法的鲁棒性分析．在４．６节部分，我们提出ＳＥＳＳＣ的一个提高版本，进一步提高ＳＥＳＳＣ的性能，并与支持向量机算法㈣３和密度敏感半监督谱聚类算法（ＤＳ＿ＳＳＣ）¨叫进行比较．

４．２

４．１

ＵＣＩ标准数据集‘”１和ＭＮＩＳＴ手写体数据集【１８３进行仿真实验，分别呈现在４．２节和４．３节部分．在实验中，对于每个数据集，我们抽取１０％的有标签数据作为监督信息，构成训练集

ＸＳ＝｛并ｄ，髫皿，…，戈ｐ｝，

ｓ＝Ｉ

ｎ／ｌＯ

ｌ，１≤ｊｒ≤ｎ，１≤ｒ≤ｓ，

它们的真实标签为

ＬＳ＝｛ｆＪｌ，如，…，ｋ｝，０∈｛１，２，…，Ｋ｝．

实验中免疫克隆优化算法的最大迭代次数锄设置

为２００，种群规模ｍ为７，克隆比例ｒｔｃ为６，变异概率ｐｍ为０．１．ｋ一调和均值聚类算法¨钊的最大迭代次数设置为５００．初始选择的特征向量数目Ｋｍ＝２０．本文采用聚类准确率¨到来定量评价算法性能，其定义如下：

’

ＵＣＩ标准数据集上的实验

本节我们采用４个ＵＣＩ标准数据集作为实验数

，，＝

ｎ

．．’．

（３）

ＩｊＪ

据，由于每个数据集的数据个数都少于１０００，我们构造全连接的亲和度矩阵．实验结果如表１所示．

对于Ｉｒｉｓ数据来说，ＮＪＷ方法采用特征向量１，２和３，数据在其上的映射如图２（ａ）所示．本文算法在１０次实验中有５次选择出特征向量２，３这个组合，数据在此特征向量组合上的映射如图３（ａ）所示，获得的聚类准确率为０．９４．其余５次实验选出的特征向量组合各不相同，但都包含特征向量２和３（见图３（ｂ）、（ｃ）），表明这２个特征向量具有较大

其中，ｎ为数据的数目，己和Ｃ分别表示数据的真实标签和算法获得的聚类结果．Ｎｕｍ（Ａ，Ｂ）表示真实划分Ａ和算法获得的划分Ｂ中相同的数据点个数．ｍａｐ（・）是把聚类标签转换成类别标签的置换函数，我们使用Ｎｕｍ（Ｌ，ｍａｐ（Ｃ））的最大值来计算聚类准确率．

在４．２节和４．３节中，我们采用ＮＪＷ算法作为比

表１

仉Ｉｂｌｅｌ

２种算法在ＵＣＩ标准数据集上的性能对比

Ｏｎ

。

…一数据集

Ｉｒｉｓ

样本数维数

１５０１７８３５ｌ６８３

４１３３４９

………。

。

类数‘磊品ｉ芳荔ｉ二面‘磊磊鬲ｊ磊万Ｆｉ＝磊鬲ｊ磊孑万—乏瓦乏ｉｊ万

¨，。

，

Ｐｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｉｓｏｎｂｅｔｗｅｅｍ２ａｌｇｏｒｉｔｈｍｓ

ＵＣＩｂｅｎｃｈｍａｒｋｄａｔａｓｅｔｓ

ＳＥＳＳＣ

ＮＪＷ

口ｃｃＨｒｎｃ，／‘幻ｏｃｃ“九∞’，ｌ／‘幻

９２．６７９６．６３７３．２２７１．８９

９３．８０９６．９７７６．０７７４．６９

∞ｃｕｒｔ阳ＶｍＩ，∥％口ｃｃ比ｒⅡｃ’，，ｒｍｊ∥％口ｃｃＨｒ口ｃ’，ｎ口ｅ／％

７９．３３９５．５ｌ８５．７５９４．００

９４．００９７．１９９４．３０９７．０７

９１．１９９６．００９０．１２９６．２４

３３２２

Ｗｉｎｅ

ＩｏｎｏｓｐｈｅｒｅＢｒｅａｓｔ－ｗ

万方数据

１期

赵凤等：

半监督谱聚类特征向量选择算法

５３

的分类信息量．实际上，本文算法仅在一次实验中取得的特征向

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 监督谱聚类特征向量选择算法

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：半监督谱聚类特征向量选择算法.docx
链接地址：https://www.bingdoc.com/p-17666178.html

半监督谱聚类特征向量选择算法.docx

热门标签