电子克隆技术及其在植物基因工程中的应用Word文档格式.doc
- 文档编号:6865637
- 上传时间:2023-05-07
- 格式:DOC
- 页数:14
- 大小:119KB
电子克隆技术及其在植物基因工程中的应用Word文档格式.doc
《电子克隆技术及其在植物基因工程中的应用Word文档格式.doc》由会员分享,可在线阅读,更多相关《电子克隆技术及其在植物基因工程中的应用Word文档格式.doc(14页珍藏版)》请在冰点文库上搜索。
1.1电子克隆的基本原理
利用电子克隆方法获得新基因是生物信息学的研究内容之一。
生物信息学资源是由数据库、计算机网络和应用软件三大部分组成。
而电子克隆的应用即是基于这三部分生物信息学资源而展开的。
它是利用计算机技术,依托现有的网络资源(EST数据库、核苷酸数据库、蛋白质数据库、基因组数据库等),采用生物信息学方法(包括同源性检索、聚类、序列拼装等),通过EST或基因组的序列组装和拼接,利用RT-PCR快速地获得部分乃至全长cDNA序列的方法。
1.2电子克隆的实施方案
首先,在数据库或PubMed中获得感兴趣的cDNA或氨基酸序列,基于EST和基因组信息两种数据资源,利用上述得到的已知基因序列实施电子克隆有以下两种方案。
利用EST数据库信息资料:
①利用序列同源性比较软件(如Blast软件)将种子序列对库检索;
②从数据库中挑选出全部相关序列;
③对所有序列进行片段整合分析(即Contig分析),形成延伸后的序列,称新生序列。
随后,将此新生序列作为种子序列重复进行上述三步过程,直至新生序列不能被进一步延伸为止,通过完整性分析即获得了全长的新基因序列[2-3]。
见图1。
利用基因组信息资料:
把作为信息探针的氨基酸或核苷酸序列在NCBI网站中对特定物种各基因组数据库进行BLAST分析,从结果中筛选出感兴趣的外显子序列,并通过链接得到其所在的基因组序列,同时根据比对的结果对基因组序列可能造成的移码测序错误进行修正;
把这些感兴趣的外显子序列按照其所在基因组上的位置依次进行直接连接,或者把基因组序列提交到GenScan和GeneFinder等网站进行预测,得到可能的新基因序列。
有时各外显子分别处于较短的尚未组装的基因组序列中,也可按探针基因外显子顺序进行直接拼接;
把可能的新基因序列基于核酸数据库做BLAST分析,检验其新颖性;
把筛选后的新基因序列提交到dbEST数据库做BLAST分析并延伸,同时也是进一步确认其真实存在的可信度,并进行组织表达定位,为克隆该基因提供组织来源信息。
最后根据最终的序列设计引物,进行RT-PCR实验得到新基因[4]。
见图2。
1.3电子克隆依据的网络分析程序和应用软件
1.3.1序列的相似性检索分析程序
一条序列对整个数据库进行相似性分析以发现其同源序列是电子克隆中的一个极其重要的方面。
目前使用最广泛的程序是FASTA和BLAST。
FASTA集中反映具有显著意义的序列对齐结果。
在互联网上已有许多的在线FASTA查找服务,同时也可下载后离线使用,下载站点:
ftp:
//ftp.vir.ginia.edu/pub/fasta/dos/。
BLAST(BasicLocalAlignmentSearchTool,基本局部比对搜索工具)则采用了一种短片段匹配算法和一种有效的统计模型来找出目的序列和数据库之间的最佳局部对齐效果。
目前在互联网上有许多在线的BLAST查找程序,专门用于查找各大数据库中与用户提交的序列同源的序列,如:
NCBI(http:
//www.ncbi.nlm.nih.gov/BLAST/blast.html)和EMBL(http:
//www.ebi.ac.uk/blast2)和EBI的FASTA(http:
//www.ebi.ac.k/fasta33/)fasta33/)。
同时运行这两个程序进行数据分析,能避免漏检一些有用的信息[5-6]。
1.3.2序列拼接、聚类的软件序列拼接、聚类常用的软件或软件包见表1[7]。
1.3.3核酸序列分析预测程序及软件
1.3.3.1可读框架(openreadingframe,ORF)分析
mRNA需要翻译为蛋白质方能发挥其生物学作用。
因此,核酸序列的可读框架分析是核酸分析的一个重要部分。
基于遗传密码表,可通过计算机方便的分析核酸序列的读码框。
最常用的互联网ORF分析资源是NCBI提供的ORFFinder,网址是http:
//www.ncbi.nlm.nih.gov/gorf/gorf.html。
1.3.3.2基因序列中的编码区/内含子结构分析预测通过与数据库中已知的蛋白质序列、cDNA序列以及EST序列进行对比,可识别编码区和内含子、外显子剪接位点。
一些内含子和外显子数据库可供参考,例如IDB(http:
//Netmeg.bio.indiana.edu/intron/index.html);
ExInt(http:
//intron.bic.nus.edu.sg)。
也可通过GENESCAN(http:
//211.161.196.214:
8888)程序预测基因组序列中可能的外显子;
利用GeneFinder软件(http:
//www.bioscience.org/urllists/genefind.html)进行基因组序列的内含子和外显子分析。
1.3.3.3基因启动子及其他DNA调控位点分析预测
基因启动子分析预测常用的数据库有真核生物启动子数据库EPD(EukaryoticPromoterDatabase):
http:
//www.epd.isb-sib.ch/。
植物启动子数据库PlantPromDB:
http:
//www.softberry.com/berry.phtml?
topic=plantprom&
group=Data&
subgroup=plantprom;
转录起始位点预测工具NNPP(NeuralNetworkPromoterPrediction):
//www.fruitfly.org/seq_tools/promoter.html,PROSCAN:
//bimas.dcrt.nih.gov/molbio/proscan,PlantPromDB:
//www.phtmltopic=plantprom&
group=data&
植物顺式作用元件分析工具PLACE:
//www.dna.affrc.go.jp/htdocs/PLACE/[5]。
1.3.4蛋白质序列分析预测程序及软件
1.3.4.1蛋白质基本性质分析
位于ExPASy的ProtScale程序(http:
//www.expasy.org/cgi.bin/protscale.pl)可被用来计算蛋白质的疏水性图谱。
进行蛋白质的亲/疏水性分析时,也可使用一些Windows下的软件资源,如BioEdit、DNAMAN等。
跨膜区的分析利用网上的相关软件(http:
//www.ch.embnet.org/software/TMPRED.form.html),该程序通过计算氨基酸序列中可能形成的跨膜螺旋位置,并按照疏水性大小赋予每个跨膜螺旋一定的分值,自动绘制出蛋白质的疏水曲线。
当分值在正负之间摆动时,可预测该蛋白质有跨膜结构域。
含有信号肽的蛋白质一般能够被分泌到细胞外,可能作为重要的细胞因子起作用,从而具有潜在的应用价值。
联网到http:
//genome.cbs.dtu.dk/services/SignalP/可进行蛋白质序列信号肽分析。
和信号肽与跨膜区结构一样,蛋白质的亚细胞定位往往也和该蛋白质的功能密切相关。
蛋白质的亚细胞定位分析的网络程序可联网到http:
//www.等,Reinhardt等基于神经网络算法构建的蛋白质亚细胞定位数据库(http:
//predict.sanger.ac.uk/nnpsl/nnpsl_mult.cgi)也可用于对蛋白质序列进行亚细胞定位分析。
1.3.4.2蛋白质功能分析预测
基于序列同源性分析的蛋白质功能预测利用BLASTP和FASTA等软件。
通常,一条新生的蛋白质序列很难仅仅通过序列对齐获得足够的功能信息。
基于蛋白质基序(motif)、结构位点、结构功能域的蛋白质功能预测能够更多的获得蛋白质的功能信息。
目前最好的motif数据库是由AmosBairoch所创建的PROSITE(http:
//www.expasy.org.prosite)。
motif预测软件:
MotifScan(http:
//hits.isb-sib.ch/cgi-bin/PFSCAN)简单模块构架搜索工具(SimpleModularArchitectureResearchTool,SMART)是较为理想的蛋白质结构功能域分析工具。
网址为:
//smart.embl-heidelberg.de/。
1.3.4.3蛋白质结构分析预测
蛋白质结构资源很多,基本立体结构数据库为PDB(http:
//www.rcsb.org/pdb/)。
NRL-3D是所有已知结构蛋白质的数据库,可用于对查询蛋白质序列进行相似性分析以确定其结构。
其网址为:
//www.gdb.org/Dan/proteins/nrl3d.html。
蛋白质序列数据库ISSD(http:
//www.protein.bio.msu.su./issd/);
二级结构数据库HSSP(http:
//www.sander.embl-heidelberg.de/hssp/);
蛋白质结构分类数据库SCOP(http:
//scop.mrc.lmb.cam.ac.uk.scop);
蛋白质分子模型数据库MMDB(http:
//www.ncbi.nlm.nih.gov/Structure/);
三维结构数据库NDB、BisMagRes-Bank、CCSD等[8-10]。
2电子克隆技术在植物基因工程中的应用
1994年Boguski等开始用电子克隆寻找人类新基因。
目前发表的有关人类基因克隆的绝大部分都利用了人类的基因组或EST数据。
北京大学人类疾病基因研究中心、国家人类基因组北方研究中心、北京大学数学学院、北京大学计算生物学中心联合,利用电子克隆的方法进行人类疾病相关的基因克隆,在国际上已经处于领先水平。
植物中目前只有拟南芥和水稻公布了基因组序列,使得这两种植物基因的克隆越来越多的利用发布的序列信息资源。
尤其是利用生物信息学技术进行水稻功能基因的电子克隆的报道近几年来逐渐增多,这标志着电子克隆在植物领域的应用开始逐步的发展起来。
黄骥等[11]以来源于水稻盐胁迫cDNA文库的1个500bp的ESTS121为信息探针搜索位于Gen-Bank的水稻EST库,发现有2个EST与S121部分序列一致,经过拼接组装获得了1个886bp的全长cDNA序列,同源性比较的结果表明其可能编码一个新的水稻锌指蛋白基因。
根据拼接好的序列设计PCR引物,通过RT-PCR的方法成功分离了该基因的完整cDNA克隆,命名为OsZFP,该锌指蛋白可能涉及到水稻幼苗的盐胁迫应答反应。
他们在2004年报道以已公布的黑麦胞质核糖体蛋白基因ScRPS7的cDNA序列为信息探针,在中国华大水稻基因组数据库中搜索与之高度同源的基因组重叠群。
采用计算机拼接和RT-PCR方法克隆了水稻胞质核糖体蛋白基因的全长cDNA序列,将其命名为OsRPS7。
对OsRPS7的基因组结构和基因的功能进行了分析和预测。
该cDNA序列全长919bp,编码192个氨基酸,其与黑麦、拟南芥和芸薹的S7核糖体蛋白的氨基酸都存在很高的一致率。
中山大学的林慧贤等用已知遗传图位的BAC克隆片段筛选水稻小穗cDNA文库,获得1个小GTP结合蛋白的相关序列,以该cDNA序列为基础将4个EST拼接,进行电子克隆,得到了1个新的水稻小GTP蛋白基因Osrab5B的cDNA克隆。
除了利用水稻EST作查询探针外,还可以选择其他物种尤其是亲缘关系较近的物种全长或EST作为查询探针,搜索水稻的dbEST库,进而拼接成完整的水稻cDNA序列。
其主要理论依据是不同物种同类基因之间存在序列保守性。
南京农业大学作物遗传与种质创新国家重点实验室与复旦大学遗传所合作,以玉米全长6-磷酸葡萄糖酸脱氢酶cDNA为查询探针,搜索水稻dbEST数据库,发现了几十条高度同源的水稻EST,通过序列组装和拼接获得了1.8kb左右的cDNA序列,进一步用RTPCR的方法克隆了水稻的6-磷酸葡萄糖酸脱氢酶基因Os6PGDH(GenBank注册号:
AF486280)。
同时他们利用来自小麦的葡萄糖-6-磷酸脱氢酶cDNA克隆Tagpd1序列为探针,搜索水稻基因组数据库,结果找到1个与之高度同源的水稻相应基因组BAC序列,通过人工序列拼接和RT-PCR克隆到了水稻葡萄糖-6-磷酸脱氢酶的全长cDNA,命名为OsG6PDH(GenBank注册号:
AY078072),经分析表明该基因编码的蛋白为胞质G6PDH,是磷酸戊糖途径的限速酶[12]。
唐向荣等发现2个水稻EST片段与大白菜BcpLH基因的双链RNA结合结构域(dsRBD)有同源区域,根据同源片段设计引物,用RT-PCR的方法从水稻愈伤组织中扩增得到了1.8kb的cDNA片段,该cDNA含有完整的编码区,有两个典型的dsRBD,与大白菜BcpLH基因的dsRBD在氨基酸水平上相似性为75%左右。
除了拟南芥和水稻,很多EST数目较多的植物也可以利用EST数据的策略进行电子克隆,同时也可以间接的利用电子克隆的策略(更方便的文库筛选),但在这方面的报道还较少。
国外的研究主要集中在利用生物信息学对传统方法或利用cDNA文库筛选克隆获得基因的结构与功能进行分析。
还有报道通过将拟南芥或水稻基因组与其他植物的EST资料及其序列进行比较,利用比较基因组学的研究结果,利用生物信息资源研究鉴定在其他作物中的相关基因,并用于鉴定同一基因在不同种中的表达或功能控制方面的差异。
但是极少有利用电子克隆获得新的功能基因的报道[13],这说明我国在植物基因电子克隆方面的研究也处于世界领先水平。
3电子克隆技术应用前景展望
与传统的基因克隆方法相比,电子克隆主要有以下优点:
速度快,包括同源性比较、序列拼接组装等工作在计算机上完成,只需RT-PCR序列验证即可;
投入低,电子克隆只需能够上网的计算机和PCR仪等仪器即可进行,实验成本较低;
技术要求低,实验室工作只涉及到RNA抽提、反转录、PCR扩增等分子生物学的基本实验,研究人员很容易掌握;
针对性强,拟克隆基因的生物学功能大都比较明确,一旦获得即可直接应用于转基因技术进行作物品种改良。
随着遗传图谱与以序列为基础的物理图谱的整合,直接将目的基因与连锁标记的遗传距离转换为物理图距后的电子克隆有可能成为取代传统的图位克隆的重要措施;
而对于采用抑制差减杂交、差异显示或基因表达系列分析等方法得到的EST采取电子克隆的方法获得全长cDNA的策略,则可成为取代RACE或cDNA文库筛选的最佳方案。
在电子克隆的基础上,许多EST所对应的cDNA克隆可通过基因组及其表达的整合分子分析(inter-gratedmolecularanalysisofgenomesandtheirexpression,IMAGE)协定免费索取,当研究者通过另外的途径得到基因的部分序列,并通过同源性检索后发现该片段与加入IMAGE协定的EST序列高度同源时,便可通过美国的ATCC组织(AmericanTypeCultureCollection)等免费索取其原始克隆,从而避免或减轻筛选全长基因的麻烦,以集中精力进行基因的功能研究。
电子克隆虽然在基因克隆效率上有很大的优势,但也存在一些弊端。
首先通过电子克隆获得cDNA全序列可行性,受已有的EST数目制约。
在GenBank中已经登录了庞大的人类和小鼠、大鼠的EST数据资料,利用EST拼接它们的全长cDNA序列相对容易些。
而植物EST数据库的资料目前还很欠缺,获得cDNA全序列的概率要小,难度要大。
同时电子克隆不适用种间保守性差的基因和外显子数目多而且每个外显子短的基因,使得电子克隆技术应用的普遍性受到一定的限制[14]。
在实际应用中,电子克隆也常常会碰到一些非常棘手的问题,针对这些问题,根据已有的研究经验列出了以下解决方案。
首先,难以获得完整的5′端序列。
这是电子克隆中遇到的最主要问题。
因为植物基因的5′端保守性一般比较低,在以基因组序列为基础的电子克隆中尤其难以确定。
根据Kozak规则以及一些经验,对于完整ORF的5′完整性一般有以下几条原则:
①参考5′端的起始密码子AUG的周围序列(GCC)GCCA/GCCAUGG规则;
②在起始密码子上游的阅读框序列中是否存在终止密码子;
③根据已有的其他物种该类基因的5′端序列与预测物种5′端的序列一致性比较。
另外也可以根据Northern杂交的结果判断该基因转录本的大小。
其次,对于通过基因组结构预测获得的基因,有时候难以确定其表达的时期,给RT-PCR验证带来困难。
一般可以根据其功能预测或查找相关的文献资料确定该基因的表达时期,也可以同时测定各个时期和不同组织的表达谱加以判断。
第三,有些查询探针是来自与预测物种如水稻同源关系较远的物种,给基因结构的人工分析带来困难。
这种情况下可以借助于基因结构预测软件,使得结构分析变得简单而且准确。
由于水稻基因的基因组序列平均只有4.5,只要将该基因估计的基因组序列(<
10kb)进行预测,一般都能得到比较准确的结果。
人类基因组计划的完成,及其他许多物种EST计划与基因组计划的开展和相关数据库的发布为我们利用电子克隆的方法获得新基因带来了新机遇,通过电子克隆获得新基因,经序列分析和功能验证,确定为基因功能,将为功能基因组学与蛋白质组学研究提供新的线索和基础。
毫无疑问,人类的电子克隆将得到进一步的发展,越来越多的基因将通过电子克隆的方法获得。
对开展人类基因功能的研究,在基因水平上预防疾病具有重要的理论意义和实用价值。
综上所述,电子克隆在今后的植物基因克隆中将起到不可替代的作用。
伴随着基因组计划出现的电子克隆必将大大加速植物基因结构、功能研究的进程,推动比较基因组学的发展和植物基因的进化、起源、发育方面的研究[15]。
从发现新基因到确定基因功能,电子克隆技术将为人类研究利用植物种质资源作出巨大贡献。
[参考文献]
[1]李鑫,章涛.新基因的克隆策略和方法[J].海峡药学,2004,16(3):
16-19.
[2]何志颖,姚玉成,胡以平.EST技术及其在基因全长cDNA克隆上的应用策略[J].国外医学遗传学分册,2002,25
(2):
67-69.
[3]BoguskiMS,SchulerGD.ESTablishingahumantranscriptmap[J].NatGenet,1995,10(4):
367-371.
[4]黄骥,张红生,曹雅君,等.水稻功能基因的电子克隆策略[J].中国水稻科学,2002,16(4):
295-298.
[5]张成岗,贺福初.生物信息学方法与实践[M].北京:
科学出版社,2002.
[6]路海峰,刘晓辉.网页方式下的BLAST程序[J].生物技术,2003,13
(1):
48-51.
[7]HuangX.Animprovedsequenceassemblyprogram[J].Genomics,1996,33
(1):
21-31.
[8]万跃华,何立民.网上生物信息学数据库资源[J].情报学报,2002,21(4):
497-512.
[9]张见影,伦志军,李正红.NCBI基因序列数据库使用和检索方法[J].现代情报,2003(12):
224-225.
[10]张成岗,贺福初.生物信息学在新基因全长cDNA序列分析及功能预测中的应用[J].生物化学与生物物理进展,2003,30
(1):
159-163.
[11]黄骥,张红生,曹雅君,等.一个新的水稻C2H2型锌指蛋白cDNA的克隆与序列分析[J].南京农业大学学报,2002,25
(2):
110-112.
[12]黄骥,王建飞,张红生.植物戊糖磷酸途径及其两个关键酶的研究进展[J].植物学通报,2004,21
(2):
139-145.
[13]BiancaHabermann,Anne-GaelleBebin,StephanHerklotz.AnAmbystomamexicanumESTsequencingproject:
analysisof17,352expressedsequencetagsfromembryonicandregenerating
blastemacDNAlibraries[J].GenomeBiol,2004,5(9):
67.
[14]万海伟,杜立新.表达序列标签(EST)在基因组学研究中的应用[J].生物技术通报,2004
(1):
35-38.
[15]BikramSGill,RudiAppels,Anna-MariaBotha-Oberholster.Aworkshopreportonwheatgenomesequencing:
internationalgenom
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电子 克隆技术 及其 植物 基因工程 中的 应用