样本均值标准化一种基于类均值的肿瘤基因芯片数据的标准化方法Word文档下载推荐.docx

资源ID：4521062 资源大小：19.28KB 全文页数：10页
资源格式： DOCX 下载积分：1金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要1金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

样本均值标准化一种基于类均值的肿瘤基因芯片数据的标准化方法Word文档下载推荐.docx

1、标准化；中心化；相关系数：Q332 ：A ：10077847（xx）03020606 肿瘤基因芯片分析是当前研究的一个热点，主要研究技术之一就是聚类分析，其目标是用某种相似性度量准则（如Pearson相关系数等）将样本或基因组织成有意义的组，对基因聚类，有助于对基因功能、基因调控及细胞过程等进行综合研究：对样本聚类，可以确定和发现新的肿瘤类型，从而对相应的诊断、治疗和预防有很大帮助，有多种聚类算法已被成功地用于基因表达谱的聚类分析，如层次聚类（hierarchical clustering），K-均值聚类（K-means clustering）等。然而，基因芯片实验中的误差很多，如荧光标记

2、效率、扫描参数的设置以及空间位置的差异等，这些都可能对基因表达水平的测量产生影响，从而导致较差的聚类效果，因此，为了消除这些外界因素引起的误差，使基因表达数据能够真实地反映测量样本的生物学差异，需要对基因表达数据进行标准化处理，虽然，已有许多文献介绍了当前常用的标准化方法。但还没有文献在理论上对其作用机理进行深入地阐述，概括起来，常用的标准化方法包括零均值单位方差方法和数据中心化方法，它们都是用均值或中值对样本或基因进行标准化处理，但是，这些方法处理后的数据不能正确反映出类别差异，在以相关系数为相似性度量准则的聚类算法中，尤其在基因表达谱中存在极端值，或者各类包含的样本或基因数量相差较大的情况

3、下，会引起类型偏倚，从而导致样本或基因的错误分类。针对上述问题，本文在研究聚类分析和标准化基本原理的基础上，分析了上述标准化方法引起错误分类的原因，提出了一种基于类均值的标准化方法，该方法对基因表达谱进行双向标准化，并将标准化过程与聚类过程相互缠绕，利用聚类结果来修正基因（或样本）的参照表达水平，不但消除了芯片间差异，还突出了每个基因（或样本）在各样本（或基因）中的变异，本文通过对5组寡核苷酸芯片的基因表达数据的聚类分析，验证了该方法能有效地提高聚类结果的质量。 1 聚类分析聚类分析的基本思想是在样本或基因间定义相似性度量准则，将相似度高的样本或基因划分为一类从而确定各个样本或基因间的关系

4、，最常用的聚类分析方法有层次聚类（hierarchical clus-tering，HC），K-均值聚类（K-means clustering，KM）等，这些方法都是基于个体间的相似度来进行聚类的，因此，相似度是聚类分析的首要环节，对聚类结果有着非常重要和直接的影响， Pearson相关系数是最常用的相似性度量准则之一，它从方向上判断两个表达水平X=（x1,x2,xn）和y=（y1,y2,yn）的相似程度，即田为向量X和Y间的夹角，P为1时，X和Y的相似度最高，为0；P为-1时，相反程度最高，为180：P为0时，相关程度最低，为90，可见，影响Pearson相关系数的是X和Y间的夹。 2 标

5、准化及其对聚类结果的影响 21 常用的标准化方法及其对聚类结果的影响最常用的一种标准化方法是零均值单位方差，即，使每个样本或基因向量的平均值为0，标准差为1，其目的是放大弱信号抑制强信号，将所有数据转换到同一个范围内，另一种常用的标准化方法是数据的中心化，即把每个基因在各样本中的表达值减去该基因在所有样本中表达值的均值或中值来去除参照表达水平的影响，或者将各个基因在每一样本中的表达值减去该样本中所有基因表达值的均值或中值来消除芯片间的差异，使基因表达水平具有可比性，该方法一般用于肿瘤样本的聚类或分类研究中。实际上，上述两种标准化方法都有一个中心化的过程，均值和中值都是观察值“中间”位置的一

6、种测度，可以看作是对参照水平的估计，在向量空间中，减去均值或中值就是将坐标原点平移到均值或中值所对应的点上，零均值单位方差的标准化方法只是比数据中心化方法多了一个单位化的过程，此过程方便比较和计算相关系数，但是，会把噪声纳入真实信号，尤其在标准差很小时会产生很大的噪声。对样本的标准化，虽然消除了芯片间的差异。但是标准化后的值不能很好地反映各个基因在不同样本中的变异：对基因进行标准化后的值虽然突出了各个基因在不同样本中的变异，但是由于芯片间差异没有消除，各个基因在不同样本中变异的可靠性值得怀疑，所以，只进行单向的标准化不能得到可靠的数据，尤其值得注意的是，当对基因标准化并对样本聚类或对样本标准

7、化并对基因聚类时，由于均值和中值固有的特性，会使样本（或基因）间的相似度偏离真实的相似度，从而使得聚类结果出现类型偏倚，下面以基因芯片样本的两类别聚类为例来说明均值和中值的中心化对聚类结果的影响，设A=ijmn为mn基因表达谱矩阵，行表示基因gi，i=1，m，列表示样本sj，j=1，n，ij表示基因gi在样本Sj中的表达值，对基因中心化后，基因gi的表达值为gi=gii1n，样本Si的表达值为si=Si-，其中，i表示用来中心化的值，但是，当两类所包含的样本数目不相等时，中值就会有比较大的差异，在基因表达谱聚类分析中，两类中样本的数目一般都不会相等。还经常会出现两类中样本的数目相差较大的情

8、况，在这种情况下，均值和中值都会偏向数目较大的一类，使聚类结果偏向数目较小的一类，此时，样本所对应的向量空间分布在二维平面上的投影如图1b所示，图中所有标示与图1a相同，点线箭头表示经过s中心化后的样本所对应的向量，如图1b所示，由于C2类所含样本数目明显多于C1类，点S1和点2更接近C2类的样本点，此时，一些原本属于C2类的样本点会被划分到C1类中。 22 基于类均值的标准化方法为了解决上述问题，本文提出了一种基于类均值的标准化方法，具体过程如下： Step 1：对所有样本Sj，j=1，n进行零均值单位方差标准化： Step 2：将样本聚为k类，Sc11，Sc1t1为第一类样本（C1），

9、Sck1，Scktk为第k类样本（Ck），其中，C11，c1t1，Ck1，cktk=1，n，t1+tk=n； Step3：分别计算出每一类样本的中值称m为类均值，再将每个样本减去m，对基因进行数据中心化的标准化处理，得到新的样本表达值； Step4：重复Step2和Step3，直到每类中的样本不再改变，或达到预定的迭代次数为止，（注：对基因的标准化也是类似的过程.）下面以基因芯片样本的两类别聚类为例来说明该方法的有效性。如图2a所示，设点p1，和点p2分别为C1类和C2类的实际的类别中心，则点S0位于线段P1P2的中点位置，当样本中出现极端值时，该方法根据第一次聚类的结果，分别计算出C

10、1类和C2类的中值m1和m2，对应图中的点M1和点M1，由于点M2是C2类的中值点，不受极端值的影响，所以点M2在点P2附近；C1类中没有极端值，所以点M1也在点P1附近，因此，C1类和C2类中值的均值m所对应的点M位于线段M1M2的中点位置，并且在点S0附近，所以，经过m中心化后，样本间的相似度接近实际，不会影响聚类结果。如图2b所示，当两类中样本的数目相差较大时，由于本文所提出的方法先计算了每一类的中值，所以样本数目的差异对相似度没有明显的影响。因此，聚类结果不会受到影响，上述过程中，m1和m2分别是对C1类和C2类的类别中心的估计，反映了每一类的基本表达水平，经过m中心化后的表达值反

11、映了每个基因在每个样本中与每个类别中心的接近程度，突出了样本间的类别差异，而且，由于中值具有不受极端值影响的特性，所以，在初步聚类中，被错误分类的样本点对估计类别中心的影响不大，例如，当第一次聚类时，将边缘上的点D1划分到了C1类中，而中值对点D1的变化不敏感，只是样本数目的变化使得点M1会向C2类的方向稍有移动，点M2会向偏离C1类的方向稍有移动，但都不会偏离点p1和点p2很远，这样，点M也不会偏离点S0很远，所以，经过m中心化后再对样本聚类，将会纠正点D1的错误分类。 3 实验结果 31 基因表达谱数据 1）白血病数据集选用文献提供的7129个白血病基因表达谱的两组数据，第一组（Data

12、l）有38个样本，包括27例ALL样本和11例AML样本；第二组（Data2）有34个样本，包括20例ALL样本和14例AML样本，过滤掉所有表达值含有负值的基因。还选用了文献筛选出的50个与ALL和AML分类紧密联系的基因（Data5），包含25个与ALL高度相关的基因，25个与AML高度相关的基因，将小于20的表达值改为20。 2）结肠癌数据集选用文献提供的2000个结肠癌基因表达谱的两组数据，第一组（Data3）有40个样本，包括26例结肠癌组织和14例正常组织，第二组（Data4）有22个样本，包括14例结肠癌组织和8例正常组织。 32 结果及分析先对所有数据进行对数变换，然后在

13、20个不同方差水平上，对前4组数据进行特征基因筛选，每个数据集得到相应的20组数据，对于Data5随机选取35个基因，使两组基因的数目有一定的差异，也得到20组数据，Data14中行为基因列为样本，Data5中列为基因行为样本，对每组数据使用4种标准化处理方法对列进行零均值单位方差标准化（no central，NC）、对行进行中值中心化（median central，MDC）、对行进行零均值单位方差标准化（mean central，MC）、基于类均值的标准化（class mean，CM）。为了使用已有的外部标准对聚类结果进行评估，本文针对两类别聚类问题进行分析，分别使用层次聚类和K-均值聚类

14、算法对上述数据经过4种预处理后得到的基因表达谱聚类，其中，Datal-4进行样本聚类，Data5进行基因聚类，表1和表2分别列出了层次聚类法和K-均值聚类法对经过上述4种标准化处理后的5个数据集在所有方差水平上最差和最好的聚类结果，表中数字表示聚类结果中被正确分类的样本数。通过比较可以看出，Data1、Data2、Data3、Da-ta5经过CM标准化处理后，在层次聚类和K-均值聚类中的都得到了优于其它标准化处理的聚类结果，而且迭代次数不超过6次；Data4无论经过怎样的标准化，聚类结果的正确率都不高，这是因为Data1-3、5的类别差异比较显著，而Data4的两类样本交叉在一起，类别差异不

15、显著，这一点可以由Madab7中的PCA分析得到，此处不再赘述。图3表示层次聚类法和K-均值聚类法对经过上述4种标准化处理后的前4个数据集的聚类结果中被正确分类的样本数目在不同方差水平上的变化曲线（由于对Data5的20组数据是随机采样得到的没有规律性，所以不研究它的变化曲线），其中，细线对应层次聚类法，粗线对应K-均值聚类法，可以看出，层次聚类法总体上要比K-均值聚类法的结果要好，所以，本文提出的方法更适用于层次聚类，随着方差水平的升高，即特征基因数量的减少，无论使用哪种标准化，聚类效果都呈改善趋势，但是当基因数量太少时，又会有所下降，从图3中还可以看出，Data1和Data3经过CM标准

16、化后的聚类结果明显优于其它标准化的聚类结果，这是由于这两个数据集中，不同类别中包含的样本数量相差较大，而且Data1中包含有极端值。综上所述，本文所提出的基于类均值的标准化方法在样本聚类和基因聚类中都具有优于其它标准化方法的数据处理能力，通过使用与聚类过程相互缠绕的迭代方法，使聚类结果得到明显改善，而且不占用时间资源，尤其是在处理由于实验条件的限制使不同类别所包含的样本（或基因）的数目相差较大，或由于基因芯片的高噪声而使表达谱数据中包含有极端值的基因表达数据时，该方法能取得很好的效果，从而给后续的分析提供更能反映样本（或基因）间生物学差异的数据，使后续分析得到更准确的结果。 4 结论基于类均值的标准化方法在消除芯片间差异的同时，突出了肿瘤基因在各样本中表达值与类别的相关程度，在以Pearson相关系数为相似度准则进行聚类时能有效的提高聚类结果的质量，与其它标准化方法的主要区别在于，它进行双向标准化，并与聚类过程相互缠绕，所以它能够为聚类分析提供更好的数据，本文对各种标准化方法作用机理的研究能够为研究人员提供一定的参考，帮助他们针对特定任务选择最佳的标准化处理的策略和方法。作者简介：王广云（1980），女，山西运城人，博士研究生，从事生物信息学研究。内容仅供参考

注意事项

本文（样本均值标准化一种基于类均值的肿瘤基因芯片数据的标准化方法Word文档下载推荐.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。