大规模表达序列标签测定及分析.ppt
- 文档编号:18835922
- 上传时间:2024-01-02
- 格式:PPT
- 页数:73
- 大小:1.43MB
大规模表达序列标签测定及分析.ppt
《大规模表达序列标签测定及分析.ppt》由会员分享,可在线阅读,更多相关《大规模表达序列标签测定及分析.ppt(73页珍藏版)》请在冰点文库上搜索。
大规模表达序列标签(EST)测定及分析,胡松年,Outline,1、什么是EST?
2、EST的应用3、EST序列测定及分析过程4、实例:
家猪脑组织及甲状腺EST分析,什么是ESTs?
ESTs(ExpressedSequencetags)是从已建好的cDNA库中随机取出一个克隆,从5末端或3末端对插入的cDNA片段进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。
大规模EST序列测定的开始,ESTs的来源上世纪80年代,对cDNA序列进行大规模测序的想法就曾提出,但对此一直存在争论,有人认为这种方法能发现成千上万的新基因;而反对者则认为cDNA序列缺少重要的基因调控区域的信息。
90年代初CraigVenter提出了EST的概念,并测定了609条人脑组织的EST,宣布了cDNA大规模测序的时代的开始(Adamsetal.,Science,1991)。
1993年前ESTs数据收录于GenBank,EBI和DDBJ。
1993年NCBI(NationalCenterofBiotechnologyInformation)建立了一个专门的EST数据库dbEST来保存和收集所有的EST数据。
1995年中期GenBank中EST的数目超过了非EST的数目。
至2007年9月底,GenBank中EST的数目已经超过了四千六百万,超过GenBank中序列数的60%.,EST相关数据库,储存EST原始数据的一级数据库,EMBLGenBank(dbEST)DDBJ,UniGene(http:
/www.ncbi.nlm.nih.gov/UniGene)TIGRGeneIndices(http:
/www.tigr.org/tdb/tgi/)STACK(http:
/www.sanbi.ac.za/Dbases.html),对EST进行聚类拼接的二级数据库,EST的应用1,ESTs与基因识别ESTs已经被广泛的应用于基因识别,因为ESTs的数目比GenBank中其它的核苷酸序列多,研究人员更容易在EST库中搜寻到新的基因(Boguskietal.,1994).在同一物种中搜寻基因家族的新成员(paralogs)。
在不同物种间搜寻功能相同的基因(orthologs)。
已知基因的不同剪切模式的搜寻。
【注:
不过很难确定一个新的序列是由于交替剪切产生的或是由于cDNA文库中污染了基因组DNA序列(Wolfsbergetal.,1997)】,EST的应用2,ESTs与基因图谱的绘制EST可以借助于序列标签位点(sequence-taggedsites)用于基因图谱的构建.STS本身是从人类基因组中随机选择出来的长度在200-300bp左右的经PCR检测的基因组中唯一的一段序列。
来自mRNA的3非翻译区的ESTs更适合做为STSs,用于基因图谱的绘制。
其优点主要包括:
由于没有内含子的存在,因此在cDNA及基因组模板中其PCR产物的大小相同;与编码区具有很强的保守性不同,3UTRs序列的保守性较差,因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。
(JamesSikela等,1991年),EST的应用3,ESTs与基因预测由于EST来源于cDNA,因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。
使用合适的比对参数,大于90的已经注释的基因都能在EST库中检测到(Baileyetal.,1998)。
ESTs可以做为其它基因预测算法的补充,因为它们对预测基因的交替剪切和3非翻译区很有效。
ESTs与SNPs来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。
最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs(Buetowetal.,1999;Gargetal.,1999;Marthetal.,1999;Picoult-Newbergetal.,1999)。
应注意区别真正的SNPs和由于测序错误(ESTs为单向测序得来,错误率可达2)而引起的本身不存在的SNPs。
解决这一问题可以通过:
提高ESTs分析的准确性。
对所发现的SNPs进行实验验证。
EST的应用4,EST的应用5,利用ESTs大规模分析基因表达水平因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到,所以可以用利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。
标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平。
CGAP为研究癌症的分子机理,美国国家癌症研究所NCI的癌症基因组解析计划(CancerGenomeAnatomyProject,CGAP)构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库,并进行了大规模的EST测序,其中大部分的文库未经标准化或差减杂交处理。
CGAP网站提供了多种工具用以分析不同文库间基因表达的差异,如:
DigitalGeneExpressionDisplayer(DGED)cDNAxProfiler基因表达系列分析(SerialAnalysisofGeneExpression,SAGE)基因表达系列分析是一种用于定量,高通量基因表达分析的实验方法(Velculescuetal.,1995)。
SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签(约9-14个碱基对),这些短的序列被连接、克隆和测序,特定的序列标签的出现次数就反应了对应的基因的表达丰度。
DNA微阵列或基因芯片的研究高密度寡核苷酸cDNA芯片或cDNA微阵列是一种新的大规模检测基因表达的技术,具有高通量分析的优点。
在许多情况下,cDNA芯片的探针来源于3EST(Dugganetal.,1999),所以EST序列的分析有助于芯片探针的设计。
EST技术流程,Serialanalysisofgeneexpression(SAGE)技术流程,基因芯片或微阵列技术流程,几种大规模分析基因表达水平的方法的比较,ESTs很短,没有给出完整的表达序列;低丰度表达基因不易获得。
由于只是一轮测序结果,出错率达2%-5%;有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染;有时出现镶嵌克隆;序列的冗余,导致所需要处理的数据量很大。
ESTs数据的不足,一、cDNA文库构建,非标准化的cDNA文库的构建。
(可用于基因表达量的分析)经标准化或扣除杂交处理的cDNA文库。
(富集表达丰度较低的基因)Oligod(T)cDNA文库。
(非翻译区由于不含有编码序列,与编码区保守序列相比所受到的选择压力比较小,因而其多态性程度比较高,便于多态性位点的选择以用于遗传图谱的构建。
)随机引物cDNA文库。
(所获得的EST在基因功能的鉴定时具有更多的信息含量,并且在构建EST数据库时更有优势,同时有利于利用EST数据库聚类完整的基因和阅读框的寻找,便于利用更敏感的蛋白质比较来寻找同源基因。
),二、序列测定及数据分析,EST软件平台,EST序列,库/序列的质量检查,测序量监控,聚类和拼接检查(借助于基因组信息),测序方向的选择,根据不同的实验目的选择不同的测序方向:
5端5上游非翻译区较短且含有较多的调控信息。
一般在寻找新基因或研究基因差异表达时用5端EST较好,大部分EST计划都是选用5端进行测序的,而且从5端测序有利于将EST拼接成较长的基因序列。
3端3端mRNA有一20200bp的plyA结构,同时靠近plyA又有特异性的非编码区,所以从3端测得EST含有编码的信息较少但研究也表明,10的mRNA3端有重复序列,这可以作为SSR标记;非编码区有品种的特异性,可以作为STS标记两端测序获得更全面的信息。
1.去除低质量的序列(Phred)2.应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactualsequences)。
载体序列(ftp:
/ncbi.nlm.nih.gov/repository/vector)重复序列(RepBase,http:
/www.girinst.org)污染序列(如核糖体RNA、细菌或其它物种的基因组DNA等)3.去除其中的镶嵌克隆。
4.最后去除长度小于100bp的序列。
序列前处理(pre-processing),家猪脂肪的EST数据分析结果,文库质量检验:
Contaminationandhouse-keepinggeneexpressionlevel,文库质量检验:
Cloneduplicationanalysis,Controlsarenon-normalizedhumanESTlibrariesconstructedbydifferentprotocols:
Krizmanprotocol1(Lib281)Krizmanprotocol2(Lib675andLib774)LTInon-normalized(Lib6346)Soaresnon-normalized(Lib185),序列质量检验:
Lengthandqualitydistribution,Qualitycheckprocess:
Headandtailtrim(Phred0.05)Vectormasking,repeatmasking,contaminationmasking(CrossMatch)Droppedsequenceshortthan100bpsaftertrimandmasking86,136sequencespassedoursequencequalitycheck41,076ESTshavemorethan80%overallidentitytopublicricesequences(BLASTN,E-value1E-15),andthusabout45,000ESTsmaybeconsiderednovelMostsequencesareof600bpsandwithqualityscore40(errorrate0.0001),镶嵌克隆的识别,Back-to-backpoly(A)+tails.Linker-to-linkerinmiddleofthesequence.Blastn/Blastxsearch.,Alignedthecontigconsensitoriceindica9311genome.Aforcedjointwasmadeiftwocontigshaveoverlapregiononthegenome.(validatedby1045ricecDNAs)Atotalof3,926contigsweremergedresultedinreductionofourcontignumbersfrom32,489to30,222,拼接质量检验:
Mergencecheck,ESTs的聚类和拼接聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(overlapping)的ESTs整合至单一的簇(cluster)中。
聚类作用:
产生较长的一致性序列(consensussequence),用于注释。
降低数据的冗余,纠正错误数据。
可以用于检测选择性剪切。
基因表达谱分析ESTs聚类的数据库主要有三个:
UniGene(http:
/www.ncbi.nlm.nih.gov/UniGene)TIGRGeneIndices(http:
/www.tigr.org/tdb/tgi/)STACK(http:
/www.sanbi.ac.za/Dbases.html),(ESTclusteringtutorial,httP:
/www.sanbi.ac.za),不严格的和严格的聚类(looseandstringentclustering)looseclustering产生的一致性序列比较长表达基因ESTs数据的覆盖率高含有同一基因不同的转录形式,如各种选择性剪接体每一类中可能包含旁系同源基因(paralogousexpressedgene)的转录本序列的保真度低stringentclustering产生的一致性序列比较短表达基因ESTs数据的覆盖率低因此所含有的同一基因的不同转录形式少序列保真度高,(ESTclusteringtutorial,httP:
/www.sanbi.ac.za),有参照的和无参照的聚类(Supervisedandunsupervisedclustering)Supervisedclustering根据已知的参考序列(如全长mRNA、已拼接好的一致性序列)聚类。
Unsupervisedclustering没有根据参考序列进行分类。
常用的拼接软件,Phrap(http:
/www.genome.washington.edu/UWGC/analysistools/Phrap.cfm)CAP3(XiaoqiuHuang,huangmtu.edu)TIGR_Assember(http:
/www.tigr.org/software/assembler/),Cluster的连接,利用cDNA克隆的信息和5,3端Reads的信息,不同的Cluster可以连接在一起。
UniGene,Unigene结合有指导的和无指导的方法,而且在聚类过程中使用了不同水平的严格度,聚类的算法为megablast,数据库不产生一致性序列。
TIGRGeneIndex,TIGRGeneIndex用的是有严格的和有指导的聚类方法,聚类的算法为类似于BLAST和FASTA的FLAST,该法得到的一致性序列较短,交替剪切得到的不同的基因属于不同的索引。
STACK,STACK用不严格的和无指导的聚类方法,聚类的算法为d2_cluster,产生较长的一致性序列,同一索引中含有不同的剪切方法得到的基因。
CleanShortandTight,TIGR-THC,UniGene,STACK,LongandLoose,聚类问题,错拼poly(A),Linker-to-linker,GeneFamilies,repeat漏拼Lowquality,Linker-to-linker,repeat选择性剪切,基因注释及功能分类,注释:
序列联配Blastn,Blastx蛋白质功能域搜索(二结构比对)PfamInterproscan,Relationshipbetweennumberofclonessequencedandnon-redundantgroups,较好匹配,InterproScan,NtBlastn,ESTsequences,NrBlastx,完成注释,无理想匹配,较好匹配,完成注释,无理想匹配,较好匹配,无理想匹配,Newsequences,域的注释,后续分析,常用的基因注释流程,基因功能分类手工分类大部分以Adams95年的文章中的采用分类体系为标准。
【Adams.MD,etal.Initialassessmentofhumangenediversityandexpressionpatternsbasedupon83millionnucleotidesofcDNAsequence.Nature.1995377(6547Suppl):
3-174】计算机批量处理利用标准基因词汇体系GeneOntology,进行近似的分类(分子功能、生物学过程、分子组分)。
(http:
/www.geneontology.org/)基因产物直系同源簇的分析(COG)(http:
/www.ncbi.nlm.nih.gov/COG/),GO的组织结构:
定向无环图(directedacyclicgraphsDAGs),各大数据库中基因或基因产物与GO术语的对照,其它分类系统与GO的对照表,表1:
家猪脂肪组织的已知基因功能分类,表2:
猪脂肪组织与猪胚胎胸腺组织和猪甲状腺组织表达谱的比较,参考文献:
1、猪脂肪组织表达序列标签(ESTs)大规模测序及分析邓亚军等,遗传学报,Vol.31,NO.11,20042、两种家猪心脏组织基因表达谱的分析曾燕舞等,遗传学报,Vol.31,No.6,2004,EST的代谢途径分析(KEGG),http:
/www.genome.ad.jp/kegg/,后续分析,比较基因组学分析基因表达谱分析新基因研究基因可变剪切分析实验验证MicroArrayGeneChipRTPCRNorthernblotting,实例介绍,家猪脑组织EST分析,文库信息,文库与序列质量检验聚类和重叠群分析ORF的寻找功能分类和注释表达谱分析交替剪接分析,分析过程,序列长度和质量处理,序列长度:
无统一标准,一般认为100bp以上的EST即可代表足够表达基因信息,序列质量处理,污染序列去除,包括载体序列、细菌基因组序列(Crossmatch)重复序列的屏蔽(RepeatMasker)低质量区去除(Q20)扔掉100bp以下的序列,序列长度和质量分布,聚类和重叠群(Contig)分析,High-qualityESTs46011,Avg.fulllength:
388.5,Avg.quality:
35.9perbase,Basedonphrapassembly,Contig大小分布,BLASTsearchresult(basedonphrapassembly,e=1e-10),BLASTSearchagainsthumangenomesequence(e=1e-5),功能分类和注释,按照GeneOntology(基因分类标准词汇体系)的三个标准分子功能、生物学过程和细胞组分对序列注释,表达量比较实例,Apoptosisinhibitorprotein(TCTPabundancecomparison),家猪甲状腺基因表达谱分析,PigThyroidESTDataRedundancy,GeneralDataofThyroidESTs,Total13440clonesweresequencedGoodESTs10674BLASTntoGenbankntnucleotidedatabasegroupi:
genomicsseq,repeats(1511)groupii:
cDNAclonesorhypothesistranscripts(1915)groupiii:
functionalgenes(5589)groupiv:
novelseq.(1659),GeneExpressionProfile,ComparativeHumanThyroidtoPigThyroidGeneExpressionProfile,ComparativePigThyroidtoPigFatGeneExpressionProfile,Comparisonpigvshuman,BlastnuniqueESTtounigeneH.sapiensAveragesignificantmatchedknowngene60%Novelgene40%Tothesignificantmatchidentitybetweenpiggenesandhumangenes80%,交替剪接分析,pre-mRNA,maturemRNA,Protein(基因产物),转录,123456,剪接,12356,12456,翻译,123456,DNA,基因的功能由产物体现相对表达量不同剪接形式结构相互作用,交替剪接类型,Fivemodelsofalternativesplicing:
retainedintron.alternativedonorsite.alternativeacceptorsite.exonskip.mutuallyexclusiveexons.,可变剪接分析实例:
Rubiscoactivasegene,Retrievedrice(Oryzasativa)RubiscoactivasecDNAsequencesfromNCBIthatcontaincompleteCDSCollected186ESTsequencesover70%similaritytocDNAsequencesPhrapclusteringgenerated6contigsAlignedthecontigstoriceindicagenomeScaffold1004bysim4Rubiscoactivasegeneinricehadatleasttwoalternativesplicingisoforms,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大规模 表达 序列 标签 测定 分析