基于RNA测序技术的转录组从头拼接算法研究.docx
- 文档编号:3853737
- 上传时间:2023-05-06
- 格式:DOCX
- 页数:50
- 大小:251.16KB
基于RNA测序技术的转录组从头拼接算法研究.docx
《基于RNA测序技术的转录组从头拼接算法研究.docx》由会员分享,可在线阅读,更多相关《基于RNA测序技术的转录组从头拼接算法研究.docx(50页珍藏版)》请在冰点文库上搜索。
基于RNA测序技术的转录组从头拼接算法研究
基于RNA测序技术的转录组从头拼接算法研究
学院:
专业:
班级:
学生姓名:
学号:
指导老师:
完成日期:
摘要:
生物信息学主要研究分子生物学领域,而对于分子生物学领域,转录组的从头拼接又是其核心内容,即利用转录组的测序片段拼接出整个转录组中的所有表达的转录体。
而RNA测序的出现,在计算上给转录组的拼接提供了一定的挑战。
在目前,转录组的拼接算法主要是基于参考基因组的拼接方法与从头拼接方法。
虽然基于参考基因组的方法比从头拼接方法更有突破性,不过基于参考基因组的拼接方法,仍然存在着一定的致命缺点,即为要有一个高质量的参考基因组。
而从实际情况分析,绝大多数的生物根本不存在一个可供参考的已知基因组,相比之下,头拼接算法的重要性就突显而出。
基于该现象,本文主要在分析当前拼接算法的基础上,提出了一个全新的转录组从头拼接算法(Bridger),巧妙地利用基于参考基因组算法的一些技巧来弥补目前从头拼接算法的不足。
借助人、狗与老鼠的RNA测序数据上的测试结果,来表明Bridger比当前所有的从头拼接算法突出。
除此之外,还将通过例子展示了Bridger在实际应用中重要价值。
最后,提出总结,进一步介绍了转录组拼接下游的一些研究工作与研究方向。
关键词:
生物信息;参考基因组;拼接算法;测序数据
Abstract:
Themainfieldofbioinformaticsresearchinmolecularbiology,andforthefieldofmolecularbiology,scratchsplicedtranscriptsgroupisthecorecontent,namelytheuseoftranscriptasesequencingfragmentsofmosaicintheentiretranscriptaseexpressionofalltranscripts.TheemergenceofRNAsequencing,splicedtranscriptsinthecalculationtoprovideacertainsetofchallenges.Atthemoment,stitchingalgorithmtranscriptasemainlysplicingmethodreferencegenomefromscratchstitchingmethod.Althoughthereferencegenome-basedapproachismorethandenovomosaicmethodbreakthrough,butbasedonthereferencegenomesplicingmethod,therearestillsomefatalflaw,thatistohaveahigh-qualityreferencegenome.Fromtheanalysisoftheactualsituation,thevastmajorityoforganismsdoesnotexistanalternativeknownreferencegenome,bycontrast,theimportanceofthefirststitchingalgorithmtohighlightout.Basedonthisphenomenon,thispaperbasedontheanalysisofthecurrentstitchingalgorithm,proposedanewdenovotranscriptasestitchingalgorithm(Bridger),cleveruseofsometechniquesbasedonthereferencegenomedenovoalgorithmtosupplementthecurrentstitchingalgorithm.Withpeople,testresultsRNAsequencingdataondogsandrats,toshowallcurrentBridgerprominentthanstitchingalgorithmfromscratch.Inaddition,bywayofexamplewilldemonstratetheimportantvalueofBridgerinpracticalapplications.Finally,summarize,andfurtherdescribessomeresearchworkandresearchtranscriptasedownstreamsplicing.
Keywords:
bioinformatics;referencegenome;stitchingalgorithm;sequencingdata
目录
摘要…………………………………………………………………………………………………..ii
第一章绪论
第一章分子生物学的背景知识
1.1生物学基础…………………………………………………………3
1.2测序技术............................................................................................3
1.2.1测序技术的发展…………………………………………………………………………3
1.2.2单端测序和双端测序……………………………………………4
1.2.3RNA测序………………………………………………………………………………….5
1.3测序片段的拼接……………………………………………………………………………6
第二章拼接算法的研究现状分析
2.1基因组的拼接算法………………………………………………………………………14
2.1.1贪婪方法………………………………………………………………………………….16
2.1.2重叠-排列-共有序列的方法………………………………………………………17
2.1.3DeBruijn图方法………………………………………………………………………..18
2.2基于参考基因组的转录组拼接算法…………………………………………….20
2.3基因组从头拼接算法………………………………………………22
2.4转录组从头拼接算法的改进………………………………………25
第三章Bridger:
新的转录组从头拼接算法
3.1拼接前的考虑………………………………………………………30
3.1.1测序数据的特点…………………………………………………30
3.1.2测序错误的预处理………………………………………………31
3.2算法的创新点………………………………………………………32
3.2.1舍弃deBruijn图而去构造剪接图……………………………32
3.2.3引进兼容图和最小路覆盖模型…………………………………37
3.2.4通过加权巧妙地利用测序深度信息……………………………38
3.3Bridger算法………………………………………………………39
3.3.1利用RNA测序片段构造剪接图…………………………………40
3.3.2构造兼容图………………………………………………………41
3.3.3寻找最优的转录体集合…………………………………………43
第四章Bridger的测评
4.1测试数据和评价标准………………………………………………44
4.1.1测试的数据………………………………………………………45
4.1.2参数设置…………………………………………………………45
4.2评价方法和标准……………………………………………………47
4.3Bridger的优缺点…………………………………………………49
4.4Bridger的下游分析..……………………………………………………………………..51
第五章总结
参考文献………….………………………………………………………………………………55
致谢词…………………………………………………………………67
第一章绪论
随着科技的增强,生物信息学的范畴也逐步增长,生物信息学是改革开放以来,出现的一门新颖的交叉学科,它主要的研究意义是利用数学、统计学以及信息学的相关知识,再结合计算机科学的相关研究知识去探讨并解决生物学上出现的问题。
又随着生物学上的基因组测序技术的突破、而分子结构的测定技术在互联网的普及下又迈入了另一层面。
据此,生物数据在科技的冲击下,沿直线上增,数以百计的生物学数据库如同雨后春算般迅速成长,这些数据给生物学的研宄提供了一定的屏障。
对于复杂多变的生物数据,生物学家们需要借助一定的数学算法和计算工具去研究并处理分析这些数据。
然后在从生物数据中获取更多的有用信息,周而复始,逐步沉淀,从而形成生物信息学。
在当下,对于生物信息学的研究,则主要是集中在分子生物学这一领域上。
而所谓的分子生物学,它主要是研究细胞内的核酸、脂肪、蛋白质等大分子的组成、形态、结构特征等等,根据这些特征的研究数据,人类可以真正地从分子平面上了解生物的特征与生活习性,进一步了解一些微生物的结构组成,在研究细胞内大分子的结构特征时,主要是研宄细胞内的DNA重组、遗传物质的表达、以及一些大分子的结构与功能等等。
经过几十年的研究,生物信息学的发展与突破就如同催化剂般在逻辑层次上极大限度地推动了分子生物学的进步与发展。
与此同时,生物信息学在其他领域范畴内也产生了共鸣。
在数学领域上、计算机科学领域内都留下了诸多具有挑战意味的学术问题。
例如对于遗传物质的剪接研究,也有一定的冲击效果,本文也主要研究遗传物质的剪接问题。
众所周知,在遗传物质的剪接过程中,mRNA(信使RNA)的产生并不单一,有着两种或者多种以上的mRNA,故此,通过翻译过程皆能产生两种或者多种以上的蛋白质,该现象在分子生物学上人们称其为可变剪接。
对于可变剪接,在生物学中,若真核生物经过一定的手段处理,基因中的内含子就会被处理掉,而所有的外显子就会相连。
而基因中的外显子之间就获得不同的组合方式,从而形成不种种类的信使RNA。
就目前而言,在信息生物学上,可变剪接的方法常常用于对真核生物的处理,且越来越普遍,对于人类而言,基因中都具有多个外显子,这也是说,在人类的细胞内大约有95%以上的基因都存在着可变剪接。
可变剪接的出现极大程度地增加编码的种类,这也是体现蛋白质多样性的主要因素。
在对细胞结构的研究中,我们已然知晓,细胞内所有的染色体物质皆构成一个庞大的基因组。
而相对于真核生物的基因而言,原核生物的基因结构较于简普,简言之,原核生物的基因就是一段具有编码蛋白质的碱基序列,它并存在外显子与内含子,所以结构较为简单。
真核生物的基因结构比原核生物的基因结构复杂得多,它不仅包括具有编码蛋白质功能的外显子(exon),还含有不具有编码蛋白质能力内含子(intron),外显子与内含子的存在也是分辨原核生物与真核生物的一大因素。
基因传递遗传信息是以蛋白质的形式表达,在表达过程中,蛋白质的形成包括两个阶段,其一为转录(transcription),其二则为翻译(translation)。
转录是机体的遗传信息由DNA转向RNA的过程,即以双链DNA中的一条单链为模板,以四种核苷酸为原料,在RNA聚合酶的催化作用下生成RNA的过程,其中,四种核苷酸分别为腺嘌呤(A)、鸟漂呤(G)、胞啼唼(C)、尿喷唆(U)。
在转录过程中,对于每一个RNA分子,我们都称之为转录体(transcript),而一个细胞又包含着成千上万的转录体,转录体的总和即为一个转录组。
转录完成之后,才完成蛋白质合成的前一部分工作,转录体还需要进入下一环节,才能合成具有生物功能的蛋白质,此环节则为翻译,所谓翻译,也就是利用RNA合成蛋白质的过程。
在本文中,研究的主要问题主要针对于转录阶段,对于翻译阶段,且不坐谈。
故此,我们主要着重于介绍蛋白质合成中的转录过程,翻译过程在此且不着分析。
对于基因的转录过程,一般分为预启动、启动、核糖核酸聚合酶与启动子脱离、转录延续与转录终止这五个阶段。
在转录过程中,其主要是由DNA的一条链着手,借助于RNA聚合酶与其它转录蛋白的帮助,从而合成一条对应的核糖核酸序列。
该序列的作用,就是将遗传基因中的存储信息完整地复制出来。
在DNA转录成RNA时,我们通过等价关系,可以将DNA中的T转换成了RNA中的U,这样便简化分析。
以上言论,只对于真核生物,原核生物的转录阶段相对于真核生物,较为简单,其转录后的产物皆可以直接用于翻译蛋白质(个别噬菌体除外)。
而真核生物的基因由编码蛋白质的外显子和不编码蛋白质的内含子组成,转录过程中,首先会形成mRNA前体,然后经过加工,再翻译成蛋白质。
转录组是合成蛋白质的核心部件,基于其重要性,本文则以当前一些转录组拼接算法为基础,去研究并提出了一个全新的转录组从头拼接算法(Bridger),巧妙地利用基于参考基因组算法的一些技巧来弥补目前从头拼接算法的不足。
第一章分子生物学的背景知识
1.1生物学基础
众所周知,对于生物而言,其遗传密码是以DNA的形式存在于基因组中。
而DNA分子是一个依照碱基互补配对原则,由两条核苷酸链构成的双螺旋结构的分子化合物。
在RNA的剪接过程中,由于RNA的剪接变化,转录体就会发生多种异常情况,而转录体的异常剪接,正是疾病产生的导火索。
就中国科学院近几年的研宄表明,生物所有的致病变异,就有三分之二的疾病变异产生于可变剪接阶段。
在对癌症的研究中,异常的可变剪接时常发生在癌细胞中,这也是导致癌细胞增值的主要原因,是产生癌症的因素之一。
因此,在对遗传物质的研究时,研究可变剪接过程,对于治疗许多人类疾病(包括癌症)都有着不可磨灭的意义。
1.2测序技术
测序技术的发展对于可变剪接的研究给予了一定的便利条件。
为此,在研究可变剪接时,我们有必要了解第二代测序技术与RNA测序。
掌握这些知识,在分子生物学中,对于分析测序数据与设计转录组拼接算法都异常常重要。
1.2.1测序技术的发展
20世纪50年代初,测序技术在生物界中横空出世,在测序技术出现的早期,人们就懂得利用化学降解的方法去研究并测定了DNA中的多聚核糖核苷酸序列。
在后来,学者Sanger与Gilbert在此基础上又分别探寻出两种不同的DNA测序方法,这些测序方法的产生,有着及其重要的意义,它标志着第一代测序技术的诞生。
而Sanger的双脱氧核苗酸末端终止测序法最终占据了第一代测序的主流地位。
又历经十余年,经过六个国家的不懈努力,在2001年,完成了人类基因组计划(HumanGenomeProject,HGP)。
时光不老,科学家们经过十年的艰辛,终于在解读基因密码上取得了一定的突破,继而推出第二代测序技术。
人类基因组计划的顺利完成,使我国生物学跨上了另一层面,也充分地证明了我国具有研究遗传信息的能力。
第二次测序技术的出现,是以Roche公司的454技术与Solexa技术和ABI公司推出的SOLiD技术为代表,对于第二代测序技术而言,它不仅饱含第一代测序技术的高准确性,还极大限度地提高了遗传信息的测序通量,测序通量的提高,标志着测序时间与测序成本得以降低。
例如,在研究人类基因组计划时,科学家们就使用第一代测序技术作为研究手段,在此期间,花费了近30亿美金的研究经费,历时十三余年;相比之下,如果利用第二代的SOLiD测序技术去研究一个人的全基因组测序,只需花费几千美金与一周的时间就可以完成这一项目。
虽然说第二代测序技术具有很多优点,不过针对于第二代测序的测序数据分析,却给科学家们带来了一些问题与挑战,其原因在于第二代测序技术的测序片段较短、数据量大、不利于研究与分析。
在第二代测序技术的基础上,Helicos公司又推出单分子测序技术;PacificBiosciences公司推出单分子实时测序技术;OxfordNanoporeTechnologies公司的单分子测序技术,这些技术又统称为第三代测序技术,不过,由于诸多因素的影响,就目前而言,第三代测序技术并不成熟,错误率较高,很少使用于实际应用之中。
由此,第二代测序技术仍然占据测序的主流地位。
1.2.2单端测序和双端测序
第二代测序技术Roche454,Illumina和ABISOLID有单端测序(singleend)和双端测序(pairedend)两种方式。
在目前,这三种技术是诸多测序方式的三大主流技术。
其中,对于Roche454测序技术来说,它主要是单端测序,它的测序片段长度可以达到400bp~800bp,在单端测序中,我们经常利用到基因组骨架的组装;而Solexa测序技术与ABISOLID测序技术的测序长度相对较短,其用途主要是用于对遗传信息基因组骨架的进一步组装与填补。
不过Solexa技术与ABISOLID技术不仅可以单端测序,还可以双端测序。
因此,只要合理运用双端测序的信息,就可以有效地克服测序片段短的缺点。
在本节中,我们主要以Illumina为例去介绍单端测序与双端测序。
对于单端测序,其测序步骤大体总结如下:
首先利用一定的方法,将DNA样本进行片段化处理,使其被打碎,从而形成200-500bp长度的测序片段。
此步骤完成之后,又将引物序列连接到DNA片段的另一端,然后在引物序列的末端加上一个接头,最终固定片段,这样便能从测序序列的一端读取DNA中的碱基信息。
而双端测序,就是在构建待测序的DNA库时,在测序序列的两端接头上都加上测序引物结合位点,继而进行两轮测序,这样便能依靠测序序列的两端来获得DNA中的碱基信息。
在实际应用中,在设计不同数据的拼接算法时,首先我们一定要充分考虑到是否利用双端测序技术。
如果利用,就应该注意以下两个方面,其一,对于DNA测序片段的本身序列信息分析一定要合理;其二,双端测序的配对信息应有效利用。
这样,才能给拼接过程提供更为权威的指导与参考。
1.2.3RNA测序
在设计拼接算法时,我们有必要介绍一下RNA测序,对于RNA测序的定义,我们可以将其解释为将高通量的测序技术应用到mRNA(信使RNA)上,然后逆转录生成的cDNA,在此过程中,就会产生了RNA测序,对于产生的RNA测序,通常被称为RNA-seq。
对于RNA测序的用途,据总结,主要有如下几个方面,第一,可以利用RNA测序去研究不同基因的mRNA种类与各自基因的表达量;第二,可以借助RNA测序去分析探讨基因不同样本间的表达差异,继而为转录组的研究开拓一个有效的研究手段。
在RNA测序未出现之前,对于转录组问题的研宄,研究人员主要是利用基于杂交的基因芯片技术为主要研究工具,不过由于技术上的缺陷,基于杂交的基因芯片技术无法准确地检测到新的mRNA,除此之外,此技术的灵敏度有限,对于表达水平的微小变化,也不能检测出来。
在转录组的研究中,其技术主要有传统的基因芯片技术与EST技术,不过对于这两种技术而言,RNA测序具有诸多优点。
例如,RNA测序可以达到单核苷酸的分辨率,能够确定出表达量很
低的转录体,还可以研究可变剪接等等,这些成果,以上两种技术只能望尘莫及。
基于RNA测序的优越性,一些专家学者便以此预测,在今后的几年或者几十年内,RNA测序技术有可能会取代传统的基因芯片技术,成为转录组研究的主要工具。
而在应用方面,随着时间的推移,RNA测序技术也被广泛地使用于转录组的研究。
RNA测序对于转录组的研究具有不可磨灭的划时代意义,不过凡事都具有两面性质,在生物信息学中,RNA测序技术产生的海量数据虽然给转录组的研究带来一定的机遇,不过在带来机遇的同时,也赋予了一定的挑战。
因此,有效地对RNA测序数据进行合理的分析与探讨,是RNA测序技术是否在科学探索中获得一席之位的关键。
关于RNA测序的主要目的,可以理解为它是研宄转录体的表达情况与比较多个不同信息样本间的转录组差异。
其主要研究的问题包括了如何准确地确定DNA转录组中表达的转录体序列,在转录体序列得到表达之后,又如何估计基因中的转录体序列的表达量,继而依照转录体序列去探讨不同样本之间的差异性表达等等。
在本章中,我们所谈论只是RNA测序研究的一个热点问题,即为从测序片段着手,去分析并拼接出基因中所含有的转录体序列,确定此序列,也是转录组研究的一大重要基石,在转录组的研究中必不可少,因此,合理掌握RNA测序,是研究生物信息学的基本要求之一。
1.3测序片段的拼接
在生物学中,测序片段的拼接一直以来,都是生物界中最为棘手的问题之一,虽然诸多学者专家研究测序片段已经有了几十年的历程,不过至目前而言,这一领域的相关问题并未得到真正的解决。
所谓测序拼接,其意义就是将基因测序所获得的短序列通过一些方法手段,从而还原成一个较为完整的序列,该过程则称之为测序拼接。
对于遗传物质DNA中的测序片段,在针对拼接此过程时,最后得到的是一个完整的基因组序列。
然而拼接RNA测序片段,由于可变剪接的存在,在拼接中,往往会得到一些彼此之间不连通的图,且每一个图的含义都是代表着一个基因位置上的转录情况。
在拼接过程中得到的每一个图,我们都可以利用一定的方法去寻找与之对应的全长的转录体路。
也就是说,在对转录组的拼接时,最终所获得的产物并不是一个长的测序序列,而是不计其数的转录体序列,在生物学上,我们将全体转录体统称为一个转录组。
在研究转录组时,我们可以将其合理地比喻成以下这种情况,从理论上来说,如果我们将一本书复制多份,然后利用剪刀将这些书分别剪碎,形成千千万万个细小的碎片,在剪接的过程中,我们剪书的方式都不相同,最终在这些碎片之中,我们总会找到某一个碎片与其他碎片具有相同之处,也就是说,某一个碎片与其他碎片具有一定的重叠几率。
而我们依靠碎片中,这些重叠的部分,最终是完全有可能将这本书的碎片重新组合,继而拼接成未剪接时的样子,依靠碎片重叠,将整个碎片组装成一本完整的书籍,这就是生物学中的序列拼接问题的最好举例。
话虽如此,不过在解决实际情况时,我们所研究的问题,远远不止这些,也没有这么简单,因为事物具有一定的偶然性。
就上述问题来说,假如在剪碎片时,由于自身的原因,我们将一千万个小碎片中的一部分碎片丢失了,而另外一部分碎片又不巧被一些东西污染,使其的外表发生了改变,那么这些碎片上的字迹就会被污染物遮挡,在研究中,就会大大地增加寻找碎片重叠的难度。
在这种情况之下,我们是很难将这些碎片从新拼接出来的,我们在生活中遇见的拼接问题事实上与上述问题相似,情况变幻莫测,所以,对于某件事物,我们都应该从多层次的角度去探析这一问题。
在最初研究序列拼接的算法时,其性质也只是为了开发一些具有启发式的算法,然后通过寻找,最终获得与当前序列的一段具有最大的重叠区域的测序片段来不断地延长基因中的当前序列。
频繁使用,最终这种方法逐渐演变成一种基于图的算法,该算法主要包括以下两种,第一种被人们称为:
“重叠一一排列一一共有序列”的方法,而另外一种方法则是基于deBruijn图的方法。
对于这两种方法的使用,它们都各自拥有着自己的优缺点,在第二代测序数据未出现之前,主要为第一代测序数据,在第一代测序数据的拼接之中,第一种方法“重叠一一排列一一共有序列”获得了成功的应用。
由此可见,第一种方法的主流意义是先计算出基因中的测序片段的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 RNA 技术 转录 从头 拼接 算法 研究
![提示](https://static.bingdoc.com/images/bang_tan.gif)