如何进行序列分析.ppt
- 文档编号:18845999
- 上传时间:2024-01-18
- 格式:PPT
- 页数:107
- 大小:807KB
如何进行序列分析.ppt
《如何进行序列分析.ppt》由会员分享,可在线阅读,更多相关《如何进行序列分析.ppt(107页珍藏版)》请在冰点文库上搜索。
序列分析,一、碱基组成,DNA序列一个显而易见的特征是四种碱基类型的分布。
尽管四种碱基的频率相等时对数学模型的建立可能是方便的,但几乎所有的研究都证明碱基是以不同频率分布的。
表1包含了9个完整DNA分子序列的资料,表2的数据来自两个胎儿球蛋白基因(Gr和Ar),每个基因具有三个外显子和两个内含子(shen等1981)。
这两个例子说明序列内和序列间碱基具有不同的频率。
在基因每一侧的500个任意碱基区域被称为“侧翼”,基因间区域是指两个基因间的其余序列。
表1九种完整DNA序列的碱基组成,表2人类胎儿球蛋白基因不同区段的碱基组成,二碱基相邻频率,分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。
碱基相邻的频率一般不等于单个碱基频率的乘积,例:
鸡血红蛋白链的mRNA编码区的438个碱基,图1鸡球蛋白基因编码区的DNA序列(GenBank:
CHKHBBM,记录号J00860),表3图1鸡球蛋白基因序列的相邻碱基分布,在编码区,存在某种约束来限制DNA序列编码氨基酸。
在密码子水平上,这一约束与碱基相邻频率有关。
表4列出了遗传密码和图1序列中各密码子数量。
尽管数目很小,难以作出有力的统计结论,但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。
这种密码子偏倚必定与两碱基相邻频率水平有关。
表4还清楚地表明,由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,因而对第3位置上碱基的约束要比第2位碱基小得多。
表464种可能的碱基三联体密码子及相应的氨基酸数(据图1序列),相邻碱基之间的关联将导致更远碱基之间的关联,这些关联延伸距离的估计可以从马尔科夫链(Markovchain)理论得到(Javare和Giddings,1989),三同向重复序列分析,除了分析整个序列碱基关联程度的特征外,我们常对寻找同向重复序列(directrepeats)之类的问题感兴趣。
Karlin等(1983)给出了完成这一分析的有效算法。
该法采用由特定的几组碱基字母组成的不同亚序列或称为字码(word)。
只需要对整个序列搜索一次。
给一碱基赋以值,例如A、C、G、T的值为0、1、2、3。
由X1、X2、Xk共k个字母组成的每一种不同的字码按:
计算字码值。
这些值的取值范围为1到4k,例如:
5字码TGACC的值为1+344+243+042+141+140=459。
可先从低k值的字码开始搜索。
记录序列中每一个位置k字码的字码值。
只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。
序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和字码值。
对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。
在本例中只有4个重复的2碱基重复序列。
例如,在位置4、5、8、9、10和15均发现了字码值为1的碱基重复序列。
从有重复的2碱基为起点的3字码值中发现字码值为1、45和49的序列有重复;以每一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。
表5序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin,1983),四、RNA二级结构预测,尽管现有一些RNA折叠程序可以预测RNA二级结构,但这类分析仍然是一门艺术。
RNA折叠有助于找出RNA分子中可能的稳定茎区,但对给定的RNA分子来说,这一结果的生物学意义究竟有多大,还是一个未知数。
即使有此局限性,二级结构的预测还是有助于找出mRNA控制区以及RNA分子中可能形成稳定折叠结构的区段。
五、从序列中寻找基因,1.基因及基因区域预测,基因按其功能可分为结构基因和调控基因:
结构基因可被转录形成mRNA,并进而转译成多肽链;调控基因是指某些可调节控制结构基因表达的基因。
在DNA链上,由蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列称为一个开放阅读框(OpenReadingFrame,ORF)。
结构基因多含有插入序列,除了细菌和病毒的DNA中ORF是连续的,包括人类在内的真核生物的大部分结构基因为断裂基因,即其编码序列在DNA分子上是不连续的,或被插入序列隔开。
断裂基因被转录成前体mRNA,经过剪切过程,切除其中非编码序列(即内含子),再将编码序列(即外显子)连接形成成熟mRNA,并翻译成蛋白质。
假基因是与功能性基因密切相关的DNA序列,但由于缺失、插入和无义突变失去阅读框而不能编码蛋白质产物。
一种典型的真核蛋白质编码基因的结构示意图。
其编码序列(外显子)是不连续的,被非编码区(内含子)隔断。
所谓基因区域预测,一般是指预测DNA序列中编码蛋白质的部分,即外显子部分。
不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。
这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATA盒等)的认识,预测出可能的完整基因,基因区域的预测是一个活跃的研究领域,先后有一大批预测算法和相应程序被提出和应用,其中有的方法对编码序列的预测准确率高达90%以上,而且在敏感性和特异性之间取得了很好的平衡,预测方法中,最早是通过序列核苷酸频率、密码子等特性进行预测(如最长ORF法等),随着各类数据库的建立和完善,通过相似性列线比对也可以预测可能的基因。
同时,一批新方法也被提了出来,如隐马尔可夫模型(HiddenMarkovModel,HMM)、动态规划法(dynamicprogramming)、法则系统(ruled-basedsystem)、语言学(linguistic)方法、线性判别分析(LinearDiscriminantAnalysis,LDA)、决策树(decisiontree)、拼接列线(splicedalingment)、博利叶分析(Fourieranalysis)等。
下表列出了claverie(1997)对部分程序预测基因区域能力的比较结果,表中同时列出了相应算法和程序的网址。
目前基因区域预测的各种算法均存在以下2个问题,
(1)目前算法对基因中的非编码区和基因间序列不加任何区别,所以预测出的基因仍然是不完全的,对5和3非编译区(UTR,untranslatedregion)的预测基本上还是空白;,
(2)目前大多数算法都是基于已知基因序列。
如相似性列线比较算法是完全依赖于已知的序列,而象HMM之类的算法都需要对已知的基因结构信号进行学习或训练,由于训练所用的序列毕竟是有限的,所以对那些与学习过的基因结构不太相似的基因,这些算法的预测效果就要大打折扣了,要解决以上两个问题,需要对基因结构进行更深入的研究,寻找隐藏在基因不同结构中的内在统计规律。
2发现基因的一般过程,从序列中发现基因可以理解为基因区域预测和基因功能预测2个层次,第一步:
获取DNA目标序列,如果你已有目标序列,可直接进入第2步;,可通过PubMed查找你感兴趣的资料;通过GenBank或EMBL等数据库查找目标序列,第二步:
查找ORF并将目标序列翻译成蛋白质序列,利用相应工具,如ORFFinder、Genefeature(BaylorCollegeofMedicine)、GenLang(UniversityofPennsylvania)等,查找ORF并将DNA序列翻译成蛋白质序列,第三步:
在数据库中进行序列搜索,可以利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索,第四步:
进行目标序列与搜索得到的相似序列的整体列线(globalalignment),虽然第三步已进行局部列线(localalignment)分析,但整体列线有助于进一步加深目标序列的认识,进行多序列列线(multiplesequencealignment)和获得列线区段的可视信息。
可分别在AMAS(OxfordUniversity)和BOXSHADE(ISREC,Switzerland)等服务器上进行,第五步:
查找基因家族,第六步:
查找目标序列中的特定模序,分别在Procite、BLOCK、Motif数据库进行profile、模块(block)、模序(motif)检索;,对蛋白质序列进行统计分析和有关预测,第七步:
预测目标序列结构,可以利用PredictProtein(EMBL)、NNPREDICT(UniversityofCalifornia)等预测目标序列的蛋白质二级结构,第八步:
获取相关蛋白质的功能信息,为了了解目标序列的功能,收集与目标序列和结构相似蛋白质的功能信息非常必要。
可利用PubMed进行搜索,第九步:
把目标序列输入“提醒”服务器,如果有与目标序列相似的新序列数据输入数据库,提醒(alert)服务会向你发出通知。
可选用SequenceAlerting(EMBL)、Swiss-Shop(Switzerland)等服务器,3解读序列(makingsenseofthesequence),大致有2条途径可以发现基因:
(1)基于同源性的方法,包括已知mRNA序列的应用;
(2)基因家族和特殊序列间的比较。
最初的方法包括利用各种计算机手段分析外显子和其它序列信号,如酶切位点,六、基于编码区特性:
最长ORF法,基因区域或蛋白质编码区的识别,特别是对高等真核生物基因组DNA序列中编码区的识别仍未能实现完全自动化。
将每条链按6个读框全部翻译出来,然后找出所有可能的不间断开放阅读框(ORF)往往有助于基因的发现,预测基因组的全部编码区或称为开放阅读框的方法概括来说也可以分为三类:
一类是基于编码区所具有的独特信号,如始起密码子、终止密码子等;,二是基于编码区的碱基组成不同于非编码区,这是由于蛋白质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼并密码子使用频率不同等原因造成的;,三是通过同源性比较搜寻蛋白质库或dbEST库寻找编码区。
前二类方法主要是利用编码区的特性来寻找,下面对这二类方法做简单描述,最长ORF法:
在细菌基因组中,蛋白质编码基因从起始密码ATG到终止密码平均有100bp,而300bp长度以上的ORF平均每36Kb才出现一次,所以只要找出序列中最长的ORF(300bp)就能相当准确地预测出基因,利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法:
由于内含子的进化不受约束,而外显子则受到选择压力,因此内含子的序列要比外显子更随机。
这是目前各种预测程序中被广泛应用的一种方法,如GCG(GeneticComputerGroup研制,一种通用核酸、蛋白质分析软件包)的TestCode、美波士顿大学GeneID和BaylorMedcineCollege的BCMGeneFinder等程序均利用了这一方法,CpG岛:
CpG岛(CpGisland)一词是用来描述哺乳动物基因组DNA中的一部分序列,其特点是胞嘧啶(C)与鸟嘌呤(G)的总和超过4种碱基总和的50%,即每10个核苷酸约出现一次双核苷酸序列CG。
具有这种特点的序列仅占基因组DNA总量的10%左右。
从已知的DNA序列统计发现,几乎所有的管家基因(House-Keepinggene)及约占40%的组织特异性基因的5末端含有CpG岛,其序列可能包括基因转录的启动子及第一个外显子。
因此,在大规模DNA测序计划中,每发现一个CpG岛,则预示可能在此存在基因。
另外,AT含量也可以作为编码区的批示指标之一,七、序列比对,相似性和同源性,局部相似性和整体相似性,相似性分数矩阵,概念:
数据库的搜索,FastA,BLAST,数据库搜索的基础是序列的相似性比对,而寻找同源序列则是数据库搜索的主要目的之一。
所谓同源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。
同源性可以用来描述染色体“同源染色体”、基因“同源基因”和基因组的一个片断“同源片断”必须指出,相似性(similarity)和同源性(homology)是两个完全不同的概念。
相似性和同源性,相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
相似性本身的含义,并不要求与进化起源是否同一,与亲缘关系的远近、甚至于结构与功能有什么联系。
当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。
总之,不能把相似性和同源性混为一谈。
所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应该避免使用。
而同源又有两种不同的情况即垂直方向的(orthology)与水平方向的(paralogy)。
直系同源(orthology)是比较基因组学中最重要的定义。
直系同源的定义是:
(1)在进化上起源于一个始祖基因并垂直传递(verticaldescent)的同源基因;
(2)分布于两种或两种以上物种的基因组;(3)功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换;(4)结构相似;(5)组织特异性与亚细胞分布相似,鉴定直系同源的实际操作标准(practicalcriteria)为:
如基因组中的A基因与基因组中的A基因被认为是直系同源,则要求:
(1)A的产物比任何在基因组中所发现的其它基因产物都更相似于A产物;
(2)A与A的相似程度比在任何一个亲缘关系较远的基因组中的任一基因都要高;(3)A编码的蛋白与A编码的蛋白要从头到尾都能并排比较,即含有相似以至于相同的模序(motif),旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向(horizontal)产生的几个同源基因。
直系与旁系的共性是同源,都源于各自的始祖基因。
其区别在于:
在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。
旁系同源的功能变异可能是横向加倍后的重排变异或进化上获得了另一功能,其功能相似也许只是机械式的相关(mechanisticallyrelated),或非直系同源基因取代新产生的非亲缘或远缘蛋白在不同物种具有相似的功能。
局部相似性和整体相似性,序列比对的基本思想,是找出检测序列和目标序列的相似性。
比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除(图2)。
图2序列比对,图中“-”表示插入和删除,用字符表示相同的残基,“+”表示相似残基,序列比对的最终实现,必须依赖于某个数学模型。
不同的模型,可以从不同角度反映序列的特性,如结构、功能、进化关系等。
很难断定,一个模型一定比另一个模型好,也不能说某个比对结果一定正确或一定错误,而只能说它们从某个角度反映了序列的生物学特性。
此外,模型参数的不同,也可能导致比对结果的不同。
序列比对的数学模型大体可以分为两类,一类从全长序列出发,考虑序列的整体相似性,即整体比对;第二类考虑序列部分区域的相似性,即局部比对。
局部相似性比对的生物学基础是蛋白质功能位点往往是由较短的序列片段组成的,这些部位的序列具有相当大的保守性,尽管在序列的其它部位可能有插入、删除或突变。
此时,局部相似性比对往往比整体比对具有更高的灵敏度,其结果更具生物学意义。
区分这两类相似性和这两种不同的比对方法,对于正确选择比对方法是十分重要的。
应该指出,在实际应用中,用整体比对方法企图找出只有局部相似性的两个序列之间的关系,显然是徒劳的;而用局部比对得到的结果也不能说明这两个序列的三维结构或折叠方式一定相同。
BLAST和FastA等常用的数据库搜索程序均采用局部相似性比对的方法,具有较快的运行速度,而基于整体相似性比对的数据库搜索程序则需要超级计算机或专用计算机才能实现。
有2种经典方法可以计算两条序列间的最适联配。
Needleman-Wunsch算法是一种整体联配(globalalignment)算法,最佳联配(两条蛋白质序列具有最多匹配残基)中包括了全部的最短匹配序列。
Smith-Wateman算法是在Needleman-Wunsch算法基础上发展而来的,它是一种局部联配(Localalignment)算法。
这二种算法均可以用于核酸和蛋白质序列。
在给定空位罚值和替换矩阵情况下,它们总是能给出具有最高联配值的联配。
但是,这个联配并不需要达到生物学意义上的显著水平。
许多程序可通过匿名ftp服务用于两条序列的联配计算。
GCG软件包中,BESFIT和GAP程序便是用于两对序列的联配。
在一些网站可以进行两条序列的联配分析,例如:
ALIGN(http:
/genome.eerie.fr/fasta/alignquery.html)/Align(http:
/www.mips.biochem.mpg.de/mips.de/mips/programs/align.html)。
ALIGN允许用户提供序列进行联配,允许选择替换矩阵,但不能设置空位罚值。
Align只能进行数据库中已有序列间的联配分析。
从整体上分析两个序列的关系,即考虑序列总长的整体比较,用类似于使整体相似(globalsimilarity)最大化的方式,对序列进行联配。
两个不等长度序列的联配分析必需考虑在一个序列中圈掉一些碱基或在另一序列作空位(gap)处理。
Needleman和Wunsch(1970)的法则为这些步骤提供了实例。
这一算法是为氨基酸序列发展的,但也可以用于核苷酸序列。
算法最初寻求的是使两条序列间的距离最小。
尽管这类距离的元素是以一种特定的方式定义的,但该算法的良好特性在于它确定了最短距离。
这是一个动态规划(dynamicprogramming)的方法。
Needleman-Wunsch算法,Needleman-Wunsch算法,将两条联配的序列沿双向表的轴放置。
从任一碱基对,即表中的任一单元开始,联配可延三种可能的方式延伸:
如果碱基不匹配,则每一序列加上一个碱基,并给其增加一个规定的距离权重;或在一个序列中增加一个碱基而在另一序列中增加一个空位或反之亦然。
引入一个空位时也将增加一个规定的距离权重。
Needleman-Wunsch算法,因此,表中的一个单元可以从(至多)三个相邻的单元达到。
我们把到左上角单元距离最小的方向看作相似序列延伸的方向。
等距离时意味着存在两种可能的方向。
将这些方向记录下来,并在研究了所有的单元之后,沿着记录的方向就有一条路径可从右下角(两个序列的末端)追踪到左上角(两个序列的起点)。
由此所产生的路径将给出具有最短距离的序列联配。
Needleman-Wunsch算法,以两个短序列CTGTATC和CTATAATCCC为例:
设碱基错配时距离权重为1,引入一个空位时距离权重为3。
该图边缘的行和列作为起始条件增加到表中。
在单元5行3列,即相应较短序列(第二序列)的第2个T碱基和较长序列(第一序列)的第1个T碱基位置,有三种可能的距离增量。
设在各序列中增加碱基T时(从4行2列移动)对距离的贡献为0。
从5行2列的位置作水平移动(等价于增加第二序列的碱基T而在第一序列引入一个空位),在本例中增加一个罚值3。
从3列4行向该单元作垂直移动,使第一序列增加碱基T而第二序列引入一个空位,结果也得到一个罚值3。
因此从该单元(5行3列)所得到的最小距离的延伸方向是沿对角线和水平方向。
在表中这两个方向用箭头表示。
这两种最短方向都使从左上角到该单元的距离为6。
沿箭头所指方向在表中从右下角向左上角追踪,得到6种可能的联配:
在上述6种联配中,距离均为10,即在较短序列中有6个匹配碱基、1个错配碱基和3个空位,Needleman-Wunsch算法,当两个序列被联配时,通过计算其重排序列(shuffedversion)的联配距离,可以得到这两个序列间的最小距离估计。
如果实际得到的联配距离小于重排序列距离的95%,则表明实际的联配距离达到了5%的显著水平,是不可能由机误造成的。
Smith-Waterman算法,由于亲缘关系较远的蛋白质序列可能只有一些相互独立的相同片段,所以进行局部相似性分析有时可能比整体相似性分析更合理。
Smith和Waterman描述了一种查找具有最高相似性片段的算法。
对于序列A=(a1,a2,am)和B=(b1,b2,bn),Hij被定义为以ai和bj碱基对结束的片段(亚序列)的相似性值。
与Needle-Wunsch算法一样,Smith-Waterman算法也要利用递推关系来确定,相似性计算中包括2个统计量:
碱基对(序列因子)的相似性值和空位权重(k为空位长度)。
Smith-Waterman算法可以给出2条序列的最大相似性值。
Smith-Waterman算法,相似性分数矩阵,在对蛋白质数据库搜索时,可采用不同的相似性分数矩阵,以提高搜索的灵敏度和准确率。
常用的相似性矩阵有突变数据矩阵(MutationDataMatrix,简称MD)和模块替换矩阵(BLOcksSubstitutionMatrix,简称BLOSUM)。
在序列比对中,通常希望使用能够反映一个氨基酸发生改变的概率与两个氨基酸随机出现的概率的比值的矩阵。
这些比值可以用相关几率(relatednessodds)矩阵表示。
这就是突变数据相似性分数矩阵产生的基础,在序列比对过程中,两个序列从头到尾逐个残基进行比对,所得几率值的乘积就是整个比对的分值。
在实际使用时,通常取几率值的对数以简化运算。
因此,常用的突变数据矩阵PAM250实际上是几率值的对数矩阵(图3)。
矩阵中值大于0的元素所对应的两个残基之间发生突变的可能性较大,值小于0的元素所对应的两个残基之间发生突变的可能性较小,图3突变数据相似性分数矩阵PAM250,突变数据矩阵PAM即可接受点突变(PointAcceptedMutation,简称PAM)。
1个PAM的进化距离表示100个残基中发生一个残基突变的概率。
对应于一个更大进化距离间隔的突变概率矩阵,可以通过对初始矩阵进行适当的数学处理得到Dayhoff等,1978,如常用的PAM250矩阵,PAM250相似性分数矩阵相当于在两个序列之间具有20%的残基匹配(图3)。
主对角线上分数值是指两个相同残基之间的相似性分数值,有些残基的分值较高,如色氨酸W为17、半胱氨酸C为12,说明它们比较保守,不易突变;有的残基的分值较低,如丝氨酸S、丙氨酸A、门冬酰氨N三种氨基酸均为2,这些氨基酸则比较容易突变。
不同氨基酸之间的分数值越高,它们之间的相似性越高,进化过程中容易发生互相突变,如苯丙氨酸F和酪氨酸Y,它们之间的相似性分数值是7。
而相似性分数值为负数的氨基酸之间的相似性则较低,如甘氨酸和色氨酸之间为-7,它们在进化过程中不易发生互相突变。
此外,表中把理化性质相似的氨基酸按组排列在一起,如碱性氨基酸组氨酸H、精氨酸R和赖氨酸K。
突变数据矩阵的产生基于相似性较高(通常为85%以上)的序列比对,那些进化距离较远的矩阵(如PAM250)是从初始模型中推算出来而不是直接计算得到的,其准确率受到一定限制。
而序列分析的关键是检测进化距离较远的序列之间是否具有同源性,因此突变数据矩阵在实际使用时存在着一定的局限性。
而模块替换矩阵BLOSUM则以序列片段为基础,它是基于蛋白质模块数据库BLOCKS,Henikoff夫妇(Henikoff和Henikoff,1992)从蛋白质模块数据库BLOCKS中找出一组替换矩阵,用于解决序列的远距离相关。
在构建矩阵过程中,通过设置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。
在每一片段中,计算出每个残基位置的平均贡献,使得整个片段可以有效地被看作为单一序列。
通过设置不同的百分比,产生了不同矩阵。
由此,例如高于或等于80%相同的序列组成的串可用于产生BLOSUM80矩阵(BlOcksSUbstitutionMatrix发音为blossom);那些有62%或以上相同的串用于产生BLOSUM62矩阵,依此类推。
BLOSUM与BLOCKS对于同样的序列比对产生的结果在局部有所不同,可能是一个认为不相似不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 如何 进行 序列 分析