基于基因本体的基因功能相似性度量毕业论文.docx
- 文档编号:529728
- 上传时间:2023-04-29
- 格式:DOCX
- 页数:41
- 大小:182.39KB
基于基因本体的基因功能相似性度量毕业论文.docx
《基于基因本体的基因功能相似性度量毕业论文.docx》由会员分享,可在线阅读,更多相关《基于基因本体的基因功能相似性度量毕业论文.docx(41页珍藏版)》请在冰点文库上搜索。
ABSTRACT
摘要
基因本体通过条目注释为不同物种间的基因产物提供统一的功能描述,为研究基因的功能提供了有效的途径,目前已经有很多基于基因本体衡量基因相似性的算法,但均存在条目间的共享语义被重复计算的缺陷。
本文以两个基因注释集合的交集的信息量作为该对基因的共享语义,并结合继承语义和拓展语义的概念,在此基础上提出一种新的衡量基因功能相似性的算法——注释的语义重叠比(SemanticOverlapRatioofAnnotation,SORA)。
此外,考虑到基因本体中存在多重继承,本文对原始SORA算法做出修改,在计算继承信息量时乘以由被拓展集合中的条目数量和拓展条目的祖先数量确定的比例因子。
最后,本文以致病基因作为测试数据,对原始及修改后的SORA算法进行了验证,实验结果说明本文实现的算法能有效刻画基因的相似性。
关键词:
基因本体语义相似性注释的语义重叠比
ABSTRACT
Geneontologycanprovideacommonschemafordescribinggenefunctionamonggenesindifferentspecies,whichmeansthattherewouldbeaneffectiveapproachtocomparethefunctionalaspectsofgenes.Uptillnow,manyalgorithmsbasedongeneontologyformeasuringgenesemanticsimilarityhavebeenproposed,mostofwhichhavethedefectthatthesharedsemanticsoftermsareaddedrepeatedly.
Inthispaper,theinformationcontentoftheintersectionoftheannotationsetsoftwogenestobecomparedisconsideredasthesharedsemanticsofthispairofgenes.Inlightofthis,anovelgenesimilaritymeasurement,SemanticOverlapRatioofAnnotation(SORA),isproposed,combinedwiththeinheritedandextendedsemantics.Inaddition,consideringthemultipleinheritancepresentingeneontology,somemodificationsthattheextendedinformationcontentismultipliedbyanindexdeterminedbythenumberoftermsintheextendedtermsetsandthatoftheancestortermsoftheextendingtermaremadetotheoriginalSORA.
Finally,bothoriginalandmodifiedSORAareevaluatedusingsomegenesrelatedtodiseaseasthetestdataandtheexperimentalresultsshowthatthealgorithmsimplementedinthispaperarereliabletocharacterizegenefunctionalsimilarity.
Keywords:
GeneOntologySemanticSimilaritySemanticOverlapRatioof Annotation
目录i
目录
第一章绪论 1
1.1引言 1
1.2研究现状 1
1.3研究内容和目标 2
1.4论文章节安排 3
第二章GO与基因相似性度量 5
2.1GO概述 5
2.2基因的相似性度量 5
2.2.1成对比较 6
2.2.2成组比较 7
第三章注释的语义重叠比算法 9
3.1条目信息量的计算 9
3.2继承信息量和扩展信息量 10
3.3计算集合的信息量 11
3.3.1算法描述 11
3.3.2算法示例 13
3.4基因的功能相似性度量 16
3.5算法改进 17
第四章实现与评估 19
4.1实验环境及所用到的包 19
4.1.1R语言简介 19
4.1.2存储GO条目信息的包 19
4.1.3存储各物种基因信息的包 20
4.2SORA算法实现 21
4.3实验验证 24
4.3.1数据准备 24
4.3.2实验结果分析 25
第五章结论与展望 29
致谢 31
参考文献 33
第一章绪论3
第一章绪论
1.1引言
在生物信息学中,比较基因及基因产物的相似性在多种应用上都起着关键的作用,如蛋白质交互作用的分析[1]、致病基因预测[2]、基因聚类[3]等,最直接的方法是基于基因序列进行比较,然而这种方法只考虑到基因的内部结构,忽略了基因在生物过程中表现出的功能。
而生物学家们在实验中发现,结构相似的基因并不一定在功能方面也具有很高的相似性,反之亦然[4]。
这种现象虽然并非俯拾即是,不能因此否认基因结构作为一种相似性衡量方法的可靠性,而是应该在结构的基础上,辅助以功能相似性的比较。
比如当研究与细胞增殖活动相关的基因时,除了分析哪些基因与少数从实验中已经得到验证的基因的结构相似外,或许还可以考虑那些参与了类似细胞增殖活动(如细胞分裂)的基因,后一种方法显然与基因的结构无关。
基因的功能不像基因序列或结构,有客观的表示形式和可以测量的属性,且随着生物数据的海量增加,更需要有一种统一的模式来描述基因的功能,以便进行比较和数据的共享,基因本体(GeneOntology,GO)应运而生。
通过GO中条目对基因的注释,将基因转化为一些GO条目的集合,通过条目间的语义关系,可以推断出基因的功能相似性。
由于通过实验验证基因的功能是一个非常耗时且代价高昂的过程,因此通过GO注释来预测基因功能一直是生物信息学的研究核心,同时生物学家们也在致力于探索如何能更准确地表达出GO条目、基因的语义。
1.2研究现状
尽管语义相似性应用于生物信息领域的时间并不长,但目前已经有许多基于语义相似性进行比较的方法可为研究者使用,这些方法从比较的内容上可分为条目比较和基因比较。
用于条目的比较方法大致可分为两类:
基于边和基于结点。
基于结点的方法常用信息量(InformationContent,IC)这一概念来量化条目的语义,条目的IC值主要依赖于条目在GO这个有向无环图中的位置或是当前的注释情况。
基于边的方法则常常使用距离(distance)的概念,距离完全依赖于条目在GO图中的位置,并不一定只是通过所要比较的条目之间的路径的边数来衡量相似性,也可借助于深度(depth),比如Pekar和Staab[5]提出的借助于两个条目的最大的公共祖先深度,即所比较的两个条目在GO图中的最低公共祖先条目到根条目的最长路径的边数。
由于基因注释为多个条目,因此基因的功能比较依赖于条目集合,而非单个条目的语义衡量,用于基因的语义比较方法仍可分为两类:
一类以条目对的方式比较,即不考虑同一注释集合中的条目之间的关系,首先对不同注释集合中的条目进行语义比较,然后基于条目间的语义相似结果得出基因的功能相似度,这一步可采取不同的策略,Lord等人[6]采取求所有条目对的相似度的平均值的策略,Wang等人[7]采取的策略是求最匹配条目对的相似度的平均值,等等。
这类方法非常依赖于条目间相似性的比较效果。
另一类是以成组方式比较,这类方法将同一注释条目集合中的条目看做一个整体,因此并不依赖条目间的语义相似性,目前成组比较的方法多考虑基因的表示方式,Lee等人[8]将基因表示成其注释条目的集合,Chabalier等人[9]将基因表示成由条目构成的向量,此外还有其他表示方式。
根据每种不同的形式可采取相应的相似性比较方法,然而这些方法大都忽略了注释条目本身的信息量,这也意味着基因的很多隐藏在GO中的语义还未被发掘出来,本文将着重讨论如何在成组比较基因相似性的方法中,结合信息量更准确地发掘出基因的语义。
1.3研究内容和目标
在比较基因的功能相似性时,成组比较的方法更注重同一基因的注释集合中的条目间的关系,目前人们对条目的信息量做了很多研究,但对条目集合的信息量却讨论较少,只将集合中的条目的信息量进行简单求和,以此作为集合的信息量,这显然并不合理。
GO条目之间存在“is-a”或“part-of”的关系,当一个条目“继承”自另一条目(两者存在“is-a”关系)后,子条目会获得父条目的所有语义,此外在继承父条目语义的基础上,子条目还会拓展出属于自己本身特性的语义。
一个条目可以产生若干子条目,如果两个条目之间存在共同的祖先条目,那么这两个条目必然会有共享语义。
在计算条目集合的信息量时,如果只是将条目元素的信息量相加,那么条目成员间的共享语义无疑会被重复计算。
本文提出一种新的以成组形式来衡量基因功能相似性的算法——注释的语义重叠比(SemanticOverlapRatioofAnnotation,SORA),通过组合条目的继承信息量和拓展信息量,可避免集合中条目间的共享语义被累加。
不管是GO条目,抑或是基因,在衡量其相似性时都要考虑如何计算共享语义,Resnik[10]方法借助信息量最多的公共祖先,DiShIn[11]方法借助分离公共祖先信息量的平均值,而SORA方法中将以两个基因的注释集合的交集的信息量作为该对基因的共享语义。
GO条目可以通过IC值体现其具体程度,基因通过GO注释转化为条目集合后,也具备了特定的信息量,本文在SORA算法中考虑到基因本身的信息量以及浅注释的问题对衡量基因相似性产生的影响,提出一种新的方式来比较基因相似性。
此外,考虑到GO条目并非是以“树”的形式构建,而是以有向无环图的方式,这意味着GO条目间会有多重继承,因此本文还将对SORA算法提出一些修改,使其更加合理。
之后通过以致病基因为测试数据进行实验,验证了SORA算法的合理性。
1.4论文章节安排
本文剩余章节安排如下:
第二章介绍了本文需要用到的基础知识,包括GO概述、基因注释,并对目前基因功能相似性的衡量方法进行分类叙述,其中介绍了几种经典的算法,并分别进行了分析。
第三章详细介绍SORA算法,首先讨论单个条目的信息量的计算方法,接着阐述该算法之所以提出所针对的问题,继而引出继承和拓展信息量的概念,再以此为基础,提出计算条目集合信息量的算法。
由于这一部分是SORA算法的核心,所以将以较多的篇幅进行详细叙述,并通过一个具体的例子展示算法的执行流程。
最后以集合信息量为基础,提出衡量基因的功能相似性的方法。
第四章叙述SORA算法的实现以及对该算法的测试评估。
首先对实现语言R和算法实现过程中使用到的包进行介绍,然后对算法实现时所划分的各个模块进行详细叙述,最后通过以致病基因为测试数据进行测试,验证了算法的合理性。
第五章对整篇论文进行总结,提出了SORA算法可以被其他算法借鉴的地方,以及后续可改进的方面,最后展望了基因功能相似性衡量方法的前景。
第二章GO与基因相似性度量7
第二章GO与基因相似性度量
2.1GO概述
GO是一个受控的、有结构组织、独立于物种的词汇集合,其提出的初衷在于为不同数据库间的基因产物的功能提供一致的描述[12]。
基因本体由三个互不重叠的本体组成,分别为分子功能(MolecularFunction,MF)、生物过程(BiologicalProcess,BP)、细胞组分(CellularComponent,CC),每个本体内部都有代表不同含义的条目。
GO中的每个条目都有唯一的标识符来区分,条目以不同的关系相连构成一个层级图,大部分条目间的关系为“is-a”和“part-of”,所描述的功能相近的条目在图上的位置更加接近。
MF本体内的条目主要描述与基因的功能相关的特性,比如基因的功能范围,BP本体内的条目主要与基因的交互有关,因此可用来预测基因功能和分析共同表达数据,CC本体内的条目主要用来验证与基因在细胞中的位置密切相关的过程和活动。
一个基因或基因产物可映射为与之相关的若干GO条目集合,这一过程称为GO注释,通过GO注释得到的条目集合的语义相似性可作为基因功能相似性的一种度量。
在GO有向无环图中,存在如下性质:
下层的条目比上层的条目更为具体,即从父条目到子条目,含义是逐层丰富的,条目的深度越大,可提供的信息越多,因此,应该尽可能选择下层的条目来注释基因产物。
此外,由于子条目继承了父条目的语义,因此基因如果被某个条目注释,则也将被此条目的所有祖先条目注释,前者称为直接注释,后者称为间接注释,这也称为GO注释的真路径法则。
目前由基因本体联合会(GOConsortium)负责开发和维护GO条目及其关系、对基因的注释方面的工作。
2.2基因的相似性度量
两个实体的语义相似性可被定义为一个具有以下特性的函数,当向该函数传入注释这两个实体的本体条目集合后,此函数会返回一个数值来显示这两个实体在含义上的接近程度[13]。
两个基因被一些GO条目注释后,其功能相似性可以由其注释条目间的语义相似性推断,如果注释条目的语义相似,那么可以认为该对基因具有相似的功能。
因此,研究者们提出了很多基于语义相似性分析基因的功能相似性的方法,这些方法从比较方式上可以分为两类:
成对比较和成组比较。
2.2.1成对比较
在此类方法中,每一个基因表示成其直接注释条目的集合,两个基因的功能相似性通过组合一个注释集合中的条目与另一注释集合中的条目之间的语义相似性来得到。
给定两个基因G1、G2,其注释条目集分别为S1、S2。
成对比较方法的第一步是将基因G1的注释集合S1中的每一个条目与基因G2的注释集合S2中的每一个条目进行语义相似性比较,假设S1中有m个条目(即基因G1被m个条目注释),S2中有n个条目(即基因G2被n个条目注释),那么在对所有条目对进行比较后,可以得到m×n个结果。
第二步根据不同的需求,对上一步得到的m×n个数值采取相应的策略得到基因G1、G2的功能相似性。
可以看到,成对比较方法的一个关键在于条目对的语义相似性的比较,此时常常借助IC这一概念,一个条目的IC是一个可以量化该条目能够提供多少信息的数值,含义越具体的条目,其IC值越大,由于本文所提出的算法中对信息量有较多的讨论,故此处不详细叙述。
下面只介绍几种常用的条目相似性的比较方法。
Resnik方法借助两个条目信息量最大的公共祖先(MostInformativeCommonAncestor,MICA)来衡量两个条目的相似度,如式(2-1)所示。
simRest1,t2=IC(tMICA) 式(2-1)
在图结构中,两个结点的公共祖先可代表这对结点的共享语义。
Resnik方法虽然能刻画出两个条目的共有的信息量,却无法体现出条目间的差异性,Lin[14]和Jiang&Conrath[15]在Resnik方法上做出一些改进,考虑到所比较的条目与MICA的距离,定义分别为式(2-2)和式(2-3)。
simLint1,t2=2×IC(tMICA)ICt1+IC(t2) 式(2-2)
simJCt1,t2=1-ICt1+ICt2-2×IC(tMICA) 式(2-3)
在成对比较方法的第二步中采取的策略通常有三种:
取最大值(MAX)、取所有对的平均值(AVG)、取最匹配对的平均值(BMA)。
AVG策略对第一步得到的结果不加选择,取所有条目对的相似度的平均值作为基因G1、G2的相似性。
这种策略可能会低估基因的相似性,若两个基因的注释条目集合完全相同,则AVG策略的计算结果是该对基因的相似度为0.5,而实际上,由于其注释条目完全匹配,相似度应该为1。
MAX策略取第一步所得结果中最匹配的条目对的相似度来衡量基因G1、G2的相似性。
显然,这种策略会高估基因的相似性,若两个基因的注释集合中有相同的条目,则MAX策略认为该对基因的相似度为1,这完全忽略了其他不同注释条目的影响。
但是在某些应用中,可能需要判断两个基因是否有共同的方面,而不在乎相似的程度,这时可以使用MAX策略。
BMA策略在第一步得到的结果中,每一个条目只选取与其最匹配的条目,即相似性最大的条目,如此将结果的数目缩小为m+n,计算这m+n个结果的平均值,作为基因G1、G2的相似性。
这种策略是AVG和MAX两种策略的折衷,往往能较为准确地衡量两个基因的相似性。
2.2.2成组比较
成组比较的方法并不依赖两个注释集合中条目之间的相似性,而是将同一注释条目集合看做一个整体,这些方法从基因的表示形式上大致可分为三类:
基于集合、基于图和基于向量。
基于集合的方法将基因表示成其完整的注释条目集合,常会用到条目重叠(TermOverlap,TO)[16]这一概念,即借助两个注释条目集的交集来比较基因的相似性,如Lee等人提出的方法借鉴Jaccard指数,以TO中元素的数目来衡量基因的相似性,集合A、B的Jaccard指数定义如式(2-4)所示。
之后又在TO的基础上结合条目的IC,引入图信息量(GraphInformationContent,GIC)[17]这一概念,注释条目集分别为S1、S2的基因G1、G2的相似性计算如式(2-5)所示。
JA,B=AB|AB| 式(2-4)
simGICG1,G2=c∈S1∩S2IC(c)c∈S1∪S2IC(c) 式(2-5)
基于图的方法将基因表示成由其注释条目构成的GO子图,然后使用图匹配技术衡量基因的相似性。
然而由于图匹配算法往往具有很高的计算复杂度,所以这种方法并不常用。
基于向量的方法将基因表示成各个维度对应一个条目的二值向量(只有0和1),如果该维度为1,则表示基因被该条目注释,反之则反,这种方法通过计算两个向量的余弦相似度或者条目共同出现的概率来衡量两个基因的相似性。
向量A和B的余弦相似度CoSim定义如式(2-6)所示。
CoSimA,B=A∙BA2+B2-A∙B 式(2-6)
第三章注释的语义重叠比算法17
第三章注释的语义重叠比算法
3.1条目信息量的计算
信息量是一个衡量条目含义的具体程度,或言之,条目可提供多少信息的数值。
很多相似性比较的算法都需要借助信息量,然而其计算方法并没有一个统一定论,因为在不同的环境下,人们对条目的具体性(specificity)有不同的理解。
常用的计算信息量的方法有两种:
一是基于语料库,二是基于GO的图结构。
在基于语料库的方法中,条目t的信息量需要借助条目的注释频率,定义如式(3-1)所示。
ICcorpus(t)=-logpt 式(3-1)
其中p(t)是条目t及其后代在特定GO注释语料库中的出现频率,假如一个语料库中有50个被注释的基因,其中有10个基因被条目t注释,则条目t的注释频率p(t)==0.2。
当注释语料库中的基因数量变化时,条目的注释频率会受到影响,因此这种计算方法使得条目的信息量依赖于它所注释的基因数目在整个语料库中的比例,无法客观地反映出该条目所含信息的多少,且会受到研究偏见,显然那些处于研究热点的基因,其注释条目的信息量会显著增加。
另一种方法基于GO图结构,不考虑条目与基因的注释关系,而只考虑条目自身的特性,如有多少后代条目,这种方法下条目t的信息量定义为式(3-2)。
ICstructuret=logdesct+1total_termslog1total_terms=1-log(desc(t)+1)log(total_terms) 式(3-2)
其中desc(t)是条目t的后代数目,total_terms是条目所在的本体(BP、MF、CC之一)中的条目总数。
这种方法对同一条目在不同的注释语料库间可以产生一致的IC值,使信息量不会受到注释的影响,这比基于语料库的方法显得更合理,但对于叶子条目(没有后代的条目)而言,式(3-2)计算得到的结果为1,这意味着所有叶子条目的信息量是相同的,显然有悖于事实,因为位于GO图上层的叶子条目并不如处于下层的叶子条目具体,所以其信息量也应有所差异。
3.2继承信息量和扩展信息量
在GO概述中已经介绍,条目的信息量与其深度成正相关,在GO图结构中,越处于下层的条目,其含义越具体,换言之,其信息量越大。
但是如果限定条目的信息量只与深度一个因素有关,那么同一深度的条目的信息量的差异则无从体现。
借鉴上文中提到的基于GO图结构计算信息量的方法,引入条目后代的数目这一因素,当一个条目的后代数目越多时,此条目扩展的语义便越多,也意味着这个条目越不具体,即信息量越小。
结合深度和后代数目两个因素,本文提出一种新的计算条目信息量的方法,定义如式(3-3)。
ICt=Specificityt×Coveraget
=Specificityt×(1-log(desct+1)log(total_terms)) 式(3-3)
其中Specificity(t)要用到条目t在GO图中的最大深度,考虑到整个图的结构,故用该条目的深度与条目所在本体子图的最大深度之比作为Specificity(t)的值,而条目的Coverage则使用式(3-2)。
这种计算方法可以避免条目的信息量受到注释语料库的影响,而且考虑的因素更加全面,更能客观而准确地反映出条目的语义。
上文提到过在GO注释中的真路径法则——如果基因被一个条目注释,那么该基因也将被此条目的所有祖先条目注释——据此可以推断,祖先条目的语义是其后代条目语义的概述,而后代条目的语义则是在祖先条目的语义的基础上扩展得到的。
当两个条目之间存在父子关系时,子条目会获得父条目的所有语义,同时扩展出自己的语义,因此,一个条目的语义可以分成两部分:
继承语义和扩展语义,继承语义是从父条目继承下来的语义,而扩展语义则是该条目的自身属性,相应地,使用继承IC和拓展IC分别用于量化继承语义和拓展语义。
如果条目t1是条目t2的祖先,则条目t2从t1的继承信息量等于条目t1的信息量,即ICinherit(t1→t2)=IC(t1),而t2对t1的扩展信息量定义为条目t2与t1的信息量之差,如式(3-4)所示。
ICextendt1→t2=ICt2-ICt1 式(3-4)
类似地,给出一个条目ti的祖先条目集合AS(ti),ti从该集合的继承信息量为此集合的信息量IC(AS(ti)),而ti对该集合的拓展信息量定义为ti与集合AS(ti)的信息量之差,如式(3-5)所示。
ICextend(AS(ti)→ti)=IC(ti)-IC(AS(ti)) 式(3-5)
3.3计算集合的信息量
计算一个条目集合的信息量时,现有方法是将其成员条目的信息量直接相加,但是GO本身含有“继承”的内在特点,条目之间存在“is-a”或“part-of”的关系,因此条目之间可能会共享信息量。
假设条目集合S中有条目t1和t2,这两个条目有一个公共祖先条目tc,则条目t1和t2从条目tc继承的语义是相同的,但拓展语义有所差别,如果采用以往的方法,则条目集合S的信息量的计算结果
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 基因 本体 功能 相似性 度量 毕业论文