梨小食心虫线粒体基因全分析及进化树的构建.docx
- 文档编号:9503124
- 上传时间:2023-05-19
- 格式:DOCX
- 页数:49
- 大小:598.50KB
梨小食心虫线粒体基因全分析及进化树的构建.docx
《梨小食心虫线粒体基因全分析及进化树的构建.docx》由会员分享,可在线阅读,更多相关《梨小食心虫线粒体基因全分析及进化树的构建.docx(49页珍藏版)》请在冰点文库上搜索。
梨小食心虫线粒体基因全分析及进化树的构建
梨小食心虫线粒体基因全分析及进化树的构建
摘要:
伴随着生物信息学的发展,现在越来越多的学科接受了生物信息学的分析手段和分析方法,并将生物信息学的分析结果作为验证实验成果的有力依据。
梨小食心虫的危害也越来越突出,并且梨小食心虫的研究也已经进入了分子研究阶段,非常需要生物信息学的科学分析方法和分析结论,为其分子水平的结果作有力论证。
本论题的研究主要内容为运用生物信息学的各种成熟软件对从NCBI数据库中获取的梨小食心虫体内的线粒体基因全序列进行生物学分析,重点对基因的数列、外显子信息、编码蛋白及其理化性质进行分析,并预测其编码蛋白的结构与功能,并通过与代表性的生物进行同源进化树的构建。
通过实验论证,我们得出梨小食心虫线粒体基因的NCBI的登录号NC014806,基因全长为15717bp,为一环形的双链DNA,于6748~7299处存在一个长552bp的开放阅读框,可编码为183个氨基酸,其翻译的蛋白质为酸性蛋白,亲水性较强,且以α–螺旋肽链盘绕为主,其序列与日本的野桑蚕线粒体有很高的同源性。
经过与八种物种进行多序列比对,构建进化树,我们可以得知梨小食心虫与其中的茶小卷叶蛾、朝灰蝶进化关系关系最近。
关键词:
生物信息学;梨小食心虫;线粒体基因序列;基因分析;进化树
ThecompleteanalysisofGrapholitamolestamitochondrialDNAandtheconstructionoftheevolutionarytree
Abstract:
Withthedevelopmentofbioinformatics,moreandmoresubjectsacceptofthetoolsandanalyticalmethodsofbioinformatics,andtheresultofbioinformaticsanalysiscanbeasastrongbasisfortheverification.Grapholithamolesta’shazardshasbecomeincreasinglyprominent,andGrapholithamolesta’sresearchhasenteredaphaseofmolecularstudies,agreatneedforthescientificanalysismethodsandconclusionsofthebioinformatics,makeastrongargumentfortheresultsofitsmolecular.ThemaincontentofthisstudyistouseavarietyofsophisticatedbioinformaticssoftwaretoanalysisthemitochondrialgenesequencesofthepearborerobtainedfromtheNCBIdatabase,focusingonthegenesequence,exoninformation,codingproteinsandtheirphysicalandchemicalproperties,andforecastitsencodedproteinstructureandfunction,toexpectthevaluablebiologicaldataobtainedfromthemassofbiologicaldata,andtoconstructtheevolutiontreethroughthecomparewiththerepresentationofthebiology.Throughexperiments,wecanknowthattheGrapholithamolestamitochondrialgenesequencesiscirculardouble-strandedDNA,theNCBIaccessionnumberfortheNC014806,Full-lengthis15717bp,andbetween6748and7299existofalongopenreadingframeof552bp,encoding183aminoacids,whosetranslationoftheproteinisacidicprotein,astronghydrophilic,andcoiled-basedbyα-helicalpeptidechain,thesequencehaveahighhomologywiththeJapanwildsilkwormmitochondria.Throughtheconstructionofevolutionarytree,weknowthatGrapholithamolestawithAdoxophyeshonmaiandCoreanaraphaelishavetherecentlyevolutionaryrelationshipintheeightspecies.
Keywords:
Bioinformatics;Grapholithamolesta;mitochondrialDNAsequence;Geneticanalysis;evolutionarytree;
1前言(Introduction)5
2材料和方法(MarerialsandMethods)6
2.1研究思路6
2.2搜索基因7
2.2.1在NCBI中搜索梨小食心虫线粒体全基因序列7
2.2.2用DNAMAN分析其基因结构7
2.2.3碱基同源性分析的方法7
2.2.4开放性阅读框(ORF)分析的方法7
2.3基因编码蛋白质的理化性质分析7
2.3.1氨基酸组成、分子质量、等电点分析方法7
2.3.2亲疏水性分析方法8
2.4基因编码蛋白质的结构分析8
2.4.1蛋白质的二级结构分析8
2.4.2蛋白质的三级结构分析8
2.5基因编码蛋白质的功能分析9
2.5.1信号肽预测的方法9
2.5.2磷酸化位点分析的方法9
2.5.3亚细胞定位的方法9
2.5.4二硫键分析的方法10
2.6构建系统进化树10
2.7生物信息学主要软件介绍11
2.7.1DNAMAN11
2.7.2ExPaSy11
2.7.3Clustalx12
3结果与分析(ResultsandAnalysis)12
3.1梨小食心虫线粒体基因的获取与分析12
3.1.1梨小食心虫线粒体全基因序列的获取12
3.1.2DNAMAN对基因序列的分析12
3.1.2.1梨小食心虫mtDNA基因组结构12
3.1.2.2梨小食心虫mtDNA基因组核苷酸组成12
3.1.2.3梨小食心虫线粒体基因组tRNA结构分析12
3.1.3碱基同源性分析13
3.1.4开放性阅读框(ORF)分析13
3.2基因编码蛋白质的理化性质分析13
3.2.1氨基酸组成、分子质量、等电点分析13
3.2.2疏水性分析14
3.3基因编码蛋白质的结构分析14
3.3.1蛋白质二级结构分析14
3.3.2蛋白质三级结构分析14
3.4基因编码蛋白质的功能分析14
3.4.1信号肽预测14
3.4.2磷酸化位点分析14
3.4.3亚细胞定位14
3.4.4二硫键分析14
3.5构建系统进化树15
4总结和展望(SummaryandOutlook)15
参考文献16
致谢17
附录18
1、前言(Introduction)
英国《自然》杂志网络版2006年5月18日报道,科学家已对含有2.23亿个碱基对,占人类基因组中碱基对总量的8%左右的人类第一号染色体完成测序,宣告持续16年的人类基因组计划全部完成。
作为人类自然科学史上重要的里程碑,“人类基因组”的研究已从“结构基因组”阶段进入“功能基因组”阶段。
在人类基因组计划后相继推出的水稻基因组计划、马铃薯基因组计划、草鱼基因组计划等,和快速增长的微生物基因测序,“海量”的基因信息的积累,催生了“功能基因组”时代的来临。
针对充分利用“海量”基因组信息的生物信息学不仅应运而生,而且为以注释、阐明基因功和利用基因生物学功能的“后基因组时代”的研究发挥了重大作用。
生物信息学是把基因组DNA序列信息分析作为源头,在获得了蛋白质编码区的信息后,进行蛋白质空间结构的预测和模拟,然后依据特定蛋白质的功能进行必要的药物设计。
就是说,生物信息学的主要任务是组织和分析生物学数据,而生物学数据的分析离不开计算机算法的运用。
因此,可以说生物信息学是一门集生命科学、计算机科学、数学、物理学为一身的多学科交叉的前沿学科。
动物mtDNA属母系遗传,是共价闭合的双链DNA分子,核酸序列和组成比较保守,基因的排列顺序比较稳定而且紧密,无重组和单拷贝。
由于其结构和进化上的特点,mtDNA已成为研究动物起源进化以及群体遗传分化的理想对象。
昆虫mtDNA大小约为15.4~16.3kb,其基因组大小的变化受A+T-rich区长度变化的影响十分显著。
A+T-rich区(A+T丰富区)的长度最短为399bp,最长达4601bp,两者相差4202bp,前者见于Tricholepidiongertschi,后者见于黑尾果蝇Drosophilamelanogaster。
昆虫线粒体基因组由2个rRNA基因(1rRNA和srRNA)、22个tRNA基因、13个蛋白编码基因[Cytb基因(细胞色素b基因,cytochromeoxidaseb),ATPase6和ATPase8(ATP酶亚基基因6和8,ATPsynthasesubunits6and8),COⅠ、COⅡ和COⅢ(细胞色素氧化酶亚基基因Ⅰ-Ⅲ,cytochromeoxidasesubunitⅠ-Ⅲ),NDl-6和ND4L(NADH降解酶基因1~6和4L,NADHdehydrogenasesubunit1-6and4L)],共37个基因和1个包含复制启动子的非编码区(A+T-rich区)组成。
Aloni和Attardi将mtDNA两条链中密度较小者命名为轻链(L链),另一条命名为重链(H链)。
考虑到昆虫mtDNA没有明显的L链与H链之分,Simon等根据昆虫mtDNA中多数基因都是从一条链上转录的特点,将这一条链定义为J链,另一条链定义为N链[1-3]。
自Wolstenholme和Clary第一个报道了果蝇DrosophilayakubamtDNA全序列以来,GenBank已收录了80余种昆虫mtDNA全序列,其中双翅目昆虫有15个种。
在双翅目实蝇科昆虫中,地中海实蝇Ceratiscapitata和油橄榄果实蝇Bactroceraoleae的线粒体基因组全序列已有报道[4]。
梨小食心虫,学名Grapholithamolesta(Busck),简称“梨小”,别名有梨小蛀果蛾、东方果蠹蛾、梨姬食心虫、桃折梢虫、小食心虫、桃折心虫。
属于鳞翅目(Lepidoptera),小卷叶蛾科(Olethreutidae)。
梨小在各地果园均有发生,是梨树的重要害虫,在梨、桃树混栽的果园为害尤为严重。
梨小除为害梨、桃树外,也为害李、杏、苹果、山楂等,严重影响果品质量及梨果产量,尤其是长江、黄河流域最严重[5]。
因此,我的论文是通过NCBI下载的梨小食心虫的全线粒体基因,并对其结构和功能进行分析。
2、材料和方法(MarerialsandMethods)
2.1、研究思路
1、基因序列的获取
2、基因序列的分析
3、同源性分析
4、开放阅读框的分析
梨小食心虫线粒体
基因序列
1、蛋白质理化性质分析
2、蛋白质二级结构分析
3、蛋白质三级结构分析
梨小食心虫线粒体
蛋白质序列
与同源性最相近的物种进行进化树的构建
进化树的构建
基因的功能结构及科研意义
得出结论
2.2、搜索基因
2.2.1、在NCBI中搜索梨小食心虫线粒体全基因序列
方法:
首先进入NCBI的官网http:
//www.ncbi.nlm.nih.gov/,在Search中选择AllDatabases,在查询框中输入Grapholitamolestamitochondrion,点击Search,然后选择Geneome,总共出现一条记录,即选择NC014806,Display选择为Genbank,选择Download中的Genbank格式,即可下载得到梨小食心虫的线粒体全基因序列。
2.2.2、用DNAMAN分析其基因结构
对于获取的海量数据,我们要先进行一些基本的分析,确定基因的分子量、碱基的组成等信息。
方法:
选取梨小食心虫的线粒体基因,选取显示的方式为包含cds,点击确认,即可。
2.2.3、碱基同源性分析的方法
方法:
进入网址:
http:
//www.ncbi.nlm.nih.gov/BLAST/,在序列中提交NC014806,其他选项默认设置。
通过在线的BLAST的比对,可以找到与梨小食心虫线粒体同源性最高的物种,从而可通过研究其同源性高的物种,间接研究该物种,为该物种的进一步研究提供一定的理论依据。
2.2.4、开放性阅读框(ORF)分析的方法
方法:
利用NCBI的ORFFinder程序对NC014806做开放性阅读框分析。
网址如下:
http:
//www.ncbi.nlm.nih.gov/projects/gorf/orfig.cgi
参数选择:
GeneticCodes:
1Standard
开放阅读框[openreadingframe,0RF]是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件[6]。
通过ORF的分析,我们可以确定全基因中哪段基因片段可以翻译为蛋白质,从而为特定蛋白质的功能的确定提供依据。
2.3、基因编码蛋白质的理化性质分析
利用ExPaSy中的Protparam和Protscale进行蛋白质的氨基酸组成、分子质量、等电点以及疏水性分析[7]。
2.3.1、氨基酸组成、分子质量、等电点分析方法
利用ExPaSy软件包中的Protparam工具进行氨基酸组成、分子质量、等电点分析
网址如下:
http:
//www.expasy.org/cgi-bin/protparam
通过氨基酸组成、分子质量、等电点分析,我们可以确定编码蛋白的最基本性质,为进一步研究蛋白质的二级结构、三级结构提供依据。
2.3.2、亲疏水性分析方法
利用瑞士生物信息学研究所(SwissInstituteofBioinformatics,SIB)的ExPASy服务器上的ProtScale程序对ORF翻译后的氨基酸序列SEQUENCE进行亲疏水性分析
网址如下:
http:
//us.expasy.org/cgi-bin/protscale.pl
参数选择:
Hphob./Kyte&Doolittle
正值表明疏水,负值表明亲水。
通过疏水性分析,可以让我们了解蛋白质是否属于亲水蛋白。
2.4、基因编码蛋白质的结构分析
2.4.1、蛋白质的二级结构分析
方法:
利用Expasy服务器下的SWISS-MODEL中的Psipred进行蛋白序列的二级结构分析
网址:
http:
//swissmodel.expasy.org/workspace/index.php?
func=tools_targetidentification1
蛋白质二级结构:
指蛋白质肽链本身的折叠和盘绕的方式。
二级结构主要有α-螺旋、β-折叠、β-转角。
常见的二级结构有α-螺旋和β-折叠。
二级结构是通过骨架上的羰基和酰胺基团之间形成的氢键维持的,氢键是稳定二级结构的主要作用力。
蛋白质二级结构预测,是通过氨基酸序列,预测蛋白质二级结构的过程。
氨基酸序列具有不同的长度,不同的氨基酸排列顺序。
实验分析表明这种差异能够形成不同的蛋白质结构。
研究蛋白质的结构意义重大,不但有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质之间的相互作用,而且对生物学、医学和药学都有非常重要的作用[8]。
2.4.2、蛋白质的三级结构分析
方法:
将分析的结果向蛋白质立体结构数据库PDB(ProteinDataBank)提交该蛋白质序列,利用RasMol软件显示该蛋白的三维分子结构
蛋白质三级结构(proteintertiarystructure):
蛋白质分子处于它的天然折叠状态的三维构象。
三级结构是在二级结构的基础上进一步盘绕,折叠形成的。
三级结构主要是靠氨基酸侧链之间的疏水相互作用,氢键,范德华力和盐键(离子键)维持的。
此外共价二硫键在稳定某些蛋白质的构象方面也起着重要作用。
通过研究蛋白质的三级结构,可以让我们更直观的通过其结构了解其功能性,从而为蛋白质功能的确定提供有力的依据[9]。
2.5、基因编码蛋白质的功能分析
2.5.1、信号肽预测的方法
方法:
利用丹麦科技大学(DTU)的CBS服务器蛋白质序列的信号肽(signalpeptide)预测,进入PredictionServes页面。
网址如下:
http:
//www.cbs.dtu.dk/services/SignalP/
参数选择:
Eukaryotes;Both;GIF(inline);Standard
信号肽,常指新合成多肽链中用于指导蛋白质的跨膜转移(定位)的N-末端的氨基酸序列(有时不一定在N端)。
信号肽位于分泌蛋白的N端。
一般由15~30个氨基酸组成。
包括三个区:
一个带正电的N末端,称为碱性氨基末端:
一个中间疏水序列.以中性氨基酸为主,能够形成一段d螺旋结构,它是信号肽的主要功能区;一个较长的带负电荷的C末端,含小分子氨基酸,是信号序列切割位点.也称加工区。
信号肽的作用,可使正在翻译的核糖体附着到RER膜上,还可以在信号肽指引下蛋白质在细胞内[10]。
通过信号肽的预测,可以让我们知道蛋白质是如何跨膜转移的。
2.5.2、磷酸化位点分析的方法
方法:
磷酸化和去磷酸化是细胞内信号传导的重要方式,利用丹麦科技大学(DTU)的CBS服务器上的NetPhos2.0Server程序做磷酸化位点分析。
NetPhos2.0Server程序是基于神经网络算法,对蛋白序列中的Ser、Thr和Tys三种氨基酸残基可能成为的磷酸化位点作出预测。
网址如下:
http:
//www.cbs.dtu.dk/services/NetPhos/
蛋白质磷酸化是最常见、最重要的一种蛋白质翻译后修饰方式,它参与和调控生物体内的许多生命活动.通过蛋白质的磷酸化与去磷酸化,调控信号转导、基因表达、细胞周期等诸多细胞过程.随着蛋白质组学技术的发展和应用,蛋白质磷酸化的研究越来越受到广泛的重视[11]。
2.5.3、亚细胞定位的方法
方法:
通过WoLFPSORT工具基于其氨基酸序列预测蛋白质亚细胞定位点
网址如下:
http:
//wolfpsort.seq.cbrc.jp/
参数选择:
Fungi;FromTextArea
亚细胞定位是指某种蛋白或表达产物在细胞内的具体存在部位。
例如在核内、胞质内或者细胞膜上存在。
GFP是绿色荧光蛋白,在扫描共聚集显微镜的激光照射下回发出绿色荧光,从而可以精确地定位蛋白质的位置[12-14]。
2.5.4、二硫键分析的方法
运用scratchproteinPredictor对蛋白质的二硫键做出分析。
网址如下:
http:
//www.ics.uci.edu/~baldig/scratch/index.html
参数选择:
Dlpro(DisulfideBonds)
二硫键是指两个硫原子之间形成的共价键,一般指多肽链中的两个半胱氨酸残基侧链的硫原子之间形成的共价键。
对于维持许多蛋白质分子的天然构象和稳定性十分重要。
二硫键与蛋白质高级结构的生物活性有关同时与蛋白质的复性也有关联。
如核糖核酸酶A经巯基乙醇(还原剂)和尿素(蛋白质变性剂)处理后,发生变性作用,四对二硫键断裂,多肽链伸展开来,高级结构发生变化,失去生物活性。
如果用透析法将大量还原剂和变性剂除去,在微量还原剂存在下,四对二硫键在原来的位置重新形成,伸展开的多太肽链会自发折叠成天然构象,生物活性得到恢复。
次试验也证明蛋白质高级结构的信息存在于一级结构中[15]。
2.6、构建系统进化树
选取不同进化层次的典型物种基因,利用ClustalX软件的N-J法构建系统进化树。
方法:
1、序列的输入
将Fasta格式的多序列文件在ClustalX中的file菜单下的“loadsequence”中导入,读取多重序列数据文件。
2、序列的多重比对和比对结果的输出
在ClustalX中选择Alignment菜单下的“outputformatoptions”设定输出格式,然后选择“DoCompleteAlignment”,对序列做多重比较,同时生成所需的多重序列比较文件*.aln文件。
3、打开mega4.1,选择file菜单下的“converttomegaformat”,弹出分析文件的对话框,点击文件夹图标,从目的文件夹中选中ClustalX比对分析后产生的*.aln文件,此时即转换到准备分析的目标文件夹,将其转换为meg格式的文件。
之后用“opendata”将其导入到mega中进行系统树构建。
4、构建进化树
在mega中,先选择Phylogeny菜单下的“ConstructTree”,然后再选择“Neighbor-Jioning(NJ)”来构建NJ树,并保存树文件。
此次构建系统进化树,主要采用的软件是clustalx,选取的进化树构建物种为有代表性的动植物,通过和其同源性比较相近的线粒体基因,构建系统进化树,从而确定梨小食心虫在进化系统中的地位和其他物种的亲缘关系。
算法选用邻位相邻算法(neighborjoining,NJ),原因在于它是一种距离矩阵算法,不仅可以计算两两的比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行了限制,是目前应用最广泛的基于距离的算法[16]。
主要采用的物种有:
1、梨小食心虫线粒体(Grapholitamolestamitochondrion)
NCBI登录号为>gi|315270918|ref|NC_014806.1|
2、中国桑野蚕线粒体(BombyxmandarinafromChinamitochondrion)
NCBI登陆号为>gi|291575900|gb|GU966621.1|
3、日本桑野蚕线
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 梨小食心虫 线粒体 基因 分析 进化 构建