基因组总结终极版.pdf
- 文档编号:3434789
- 上传时间:2023-05-05
- 格式:PDF
- 页数:14
- 大小:648.95KB
基因组总结终极版.pdf
《基因组总结终极版.pdf》由会员分享,可在线阅读,更多相关《基因组总结终极版.pdf(14页珍藏版)》请在冰点文库上搜索。
1、什么是基因组学?
基因组学有哪些特点?
什么是基因组学?
基因组学有哪些特点?
答:
基因组学即基因组生物学,是研究生命遗传物质和其生物学规律的学问。
基因组学的研究对象是基因组结构特征、变演规律和生物学意义。
特点:
(1)Genomesciencesaresequence-based
(2)Genomesciencesaredata-guided(notsohypothesis-driven)(3)Genomesciencesisasystematicapproach2、什么是模式生物?
、什么是模式生物?
答:
生物学家通过对选定的生物物种进行科学研究,用于揭示某种具有普遍规律的生命现象,这种被选定的生物物种为模式生物。
在人类基因组计划中,包括对五种生物基因组的研究:
大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。
3、人类基因组计划是哪一年完成的?
在科学上有什么意义?
、人类基因组计划是哪一年完成的?
在科学上有什么意义?
答:
2000年完成了人类基因组“工作框架图”。
2001年公布了人类基因组图谱及初步分析结果。
意义:
人类基因组计划与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划。
对生命科学的研究和生物产业的发展具有非常重要的意义,它为人类社会带来的巨大影响是不可估量的。
首先,获得人类全部基因序列将有助于人类认识许多遗传疾病以及癌症等疾病的致病机理,为分子诊断、基因治疗等新方法提供理论依据。
第二,破译生命密码的人类基因组计划有助于人们对基因的表达调控有更深入的了解。
4、基因组学的发展方向是什么?
、基因组学的发展方向是什么?
答:
近年来比较基因组学和动态基因组学的不断发展,使得基因组学的应用越来越广泛,向其他学科、领域逐渐渗透的趋势日趋明显,涵盖了现代农业、生态环境、结构、进化、药物、法医、营养、人类健康等各个方面。
随着各种技术水平的进步,基因组学的发展前景必将更加广阔。
5、三大公共、三大公共DNA数据库是什么?
数据库是什么?
答:
GenBank,DDBJ,EMBL6、什么是一级数据库和二级数据库?
、什么是一级数据库和二级数据库?
答:
一级数据库的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释,其内容由提交者提供、控制。
如GenBank,SNP,GEO。
二级数据库是在一级数据库的基础上衍生而来,是对生物学知识和信息的进一步整理,其内容由第三方(NCBI)整理、控制。
如Refseq,TPA,UniGene。
7、什么是、什么是NCBI的的Refseq?
什么是?
什么是UniGene?
UniGene与与Refseq的区别与联系?
的区别与联系?
答:
Refseq数据库提供非冗余,高质量,经检验校正的序列信息,并为每个序列提供一个accessionnumberUniGene数据库基于MegaBlast自动将序列聚类,剔除冗余部分,形成geneclusters,每一个genecluster提供单一基因的信息,包括基因表达的组织类型和图谱定位信息,已知的基因序列和尚未了解的ESTs。
有助于发现新基因及选择图谱绘制试剂。
联系:
均为NCBI建立的二级数据库区别:
Refseq提供染色体、基因组、蛋白质、RNA等的序列UniGene提供的是基因的序列和ESTs信息8、GEO是什么类型的数据库,主要包含什么类型数据?
是什么类型的数据库,主要包含什么类型数据?
答:
GEO是基因表达序列数据库数据类型:
expressionprofiling;genomevariationprofiling;genomebinding/occupancyprofiling;methylationprofiling;SNPgenotyping;non-codlingRNAprofiling9、大致介绍一下、大致介绍一下UCSCGENOMEBROWSER答:
UCSCGenomeBrowser是由UCSC创立和维护的,该站点包含有人类、小鼠和大鼠等多个物种的基因组草图,并提供一系列的网页分析工具。
站点用户可以通过它可靠和迅速地浏览基因组的任何一部分,并且同时可以得到与该部分有关的基因组注释信息,如已知基因,预测基因,表达序列标签,信使RNA,CpG岛,克隆组装间隙和重叠,染色体带型,小鼠同源性等。
用户也可以因为教育或科研目的加上他们自己的注释信息。
UCSCGenomeBrowser目前应用相当广泛,比如Ensembl就是使用它的人类基因组序列草图为基础的。
(这题是我百度的,不知道怎么答)10、HAVANA基因是什么类型数据基因是什么类型数据答:
人和脊椎动物的transcript(不确定11什么是细菌人工染色体(什么是细菌人工染色体(BAC)?
)?
答:
细菌人工染色体(Bacterialartificialchromosome,BAC)是指一种以F质粒(F-plasmid)为基础建构而成的细菌染色体克隆载体,长用来克隆150kb左右大小的DNA片段,最多可保存300kb个碱基对。
该质粒主要包括oriS,repE(控制F质粒复制)和parA、parB(控制拷贝数)等成分。
以BAC为基础克隆的载体成嵌合体的频率较低,转化效率高,而且以环状结构存在于细菌体内,易于分辨和分离纯化,已被科学界广泛接受。
目前主要用于大片段基因组文库的构建和大的基因簇的相关研究,并在各类生物基因组计划中发挥重要的作用。
12什么是遗传图谱?
用来构建遗传图谱的标记有哪些?
什么是遗传图谱?
用来构建遗传图谱的标记有哪些?
遗传图是应用遗传学分析方法将基因或其他DNA顺序标定在染色体上构建的连锁图,家系分析等。
遗传图距单位为厘摩(cM),每单位厘摩定义为1%交换率。
主要标记有基因标记和DNA标记:
基因标记(性状标记)基因标记(性状标记):
DNA标记标记:
以DNA片段为标记,通过DNA片段的电泳使DNA产生多态性,有1)RFLP(Restrictionfragmentlengthpolymorphism),2)SSLP(simplesequencelengthpolymorphism)SSLP(simplesequencelengthpolymorphism)即简单序列长度多态性,3)SNP(SingleNucleotidePolymorphism)SNP(SingleNucleotidePolymorphism)即单核苷酸多态性。
13什么是物理图谱?
物理图谱和遗传图谱的联系和区别什么是物理图谱?
物理图谱和遗传图谱的联系和区别应用分子生物学技术来直接将DNA分子标记、基因或克隆标定在基因组的实际位置。
物理图的距离依作图方法而异,如辐射杂种作图的计算单位是Cr,限制性片段作图与克隆作图的图距是DNA的分子长度,即碱基对(bp,kb).区别:
区别:
1)遗传图谱通过遗传重组所得到的基因在具体染色体上线性排列图称为遗传连锁图。
它是通过计算连锁的遗传标志之间的重组频率,确定他们的相对距离,而物理图谱则是基因或克隆在基因组的实际位置。
2)遗传图谱分辨率有限:
分辨率依赖于得到的交换的数目。
对于人类和大多数真核生物来说,巨大数量的后代不易获得;遗传图谱覆盖面较低;遗传图谱分子标记的排列有事会出现差错。
联系联系:
二者均可以在一定程度上对基因进行定位;且物理作图必须在遗传作图的基础上才可进行,并且进行下一步的基因组测序;遗传图谱和物理图谱可以整合。
14如何构建其物理图谱?
如何构建其物理图谱?
主要有限制性作图、荧光原位杂交、序列标签位点作图、克隆作图。
限制性作图限制性作图:
将限制性酶切位点标定在DNA分子的相对位置,主要是通过比较一种DNA分子被不同限制性内切酶切割所产生的片段大小来完成。
局限性在于只能应用于相对较小的DNA分子;荧光原位杂交荧光原位杂交FISH:
在染色体上进行DNA杂交,以便识别荧光标记探针在染色体上位置的方法。
可用于大基因组,但难于操作,数据积累慢,一次实验定位的标记不超过3-4个。
序列标签位点(序列标签位点(STS)作图)作图:
STS是指一段短的DNA(100-500bp)易于识别,在待研究的染色体或基因组中仅有1个拷贝。
因此当2个片段含有同一STS顺序时,可以确定这两个片段彼此重叠。
序列标签位点作图是通过PCR或分子杂交将特定DNA顺序定位在及阴虚染色体区段中。
通过放射杂交和克隆文库获得作图对象。
通过放射杂交和克隆文库获得作图对象。
克隆作图:
克隆作图:
通过克隆的DNA片段之间的重叠顺序构建重叠群(Contig),绘制物理图谱连锁图。
作图所用的载体主要有作图所用的载体主要有YAC载体、载体、PAC载体、载体、BAC载体。
载体。
15SANGER测序方法的原理测序方法的原理使用的是双脱氧末端终止法双脱氧末端终止法:
利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。
直到掺入一种链终止核苷酸为止。
每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。
由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。
终止点由反应中相应的双脱氧而定。
每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。
它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。
详见下图:
16二代测序原理。
二代测序原理。
二代测序的基本原理是边合成边测序。
在Sanger等测序方法的基础上,通过技术创新,用不同颜色的荧光标记四种不同的dNTP,当DNA聚合酶合成互补链时,每添加一种dNTP就会释放出不同的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得待测DNA的序列信息。
17如何构建如何构建Mate-pair文库?
文库?
首先将基因组DNA随机打断到特定大小;然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600bp的片段并通过带有亲和素的磁珠把那些带有生物素标记的片段捕获。
这些捕获的片段再经末端修饰和加上特定接头后建成大片段文库,不需要克隆到细菌中,直接在IlluminaGenomeAnalyzer上对这些大片段文库的两端进行测序。
这种从较大跨度两端所获得的序列对大基因组或者复杂基因组的组装和基因组结构变异发掘具有非常重要的作用,特别适合于新基因组测序项目。
182000年公布的人类基因组框架图,分别由哪两种测序策略指导完成的?
年公布的人类基因组框架图,分别由哪两种测序策略指导完成的?
A,逐个克隆法(由上而下):
对连续克隆系中排定的BAC逐个进行亚克隆测序,并进行组装;B,全基因组鸟枪法(由下而上):
在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,并用超级计算机进行组装。
19什么是什么是reads?
什么是?
什么是Contig?
什么是?
什么是Scaffold?
什么是?
什么是N50?
高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是原始数据;有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig;多个contigs通过片段重叠,组成一个更长的scaffold;N50值是评定基因组拼接好坏的一个标准,如ContigN50:
Reads拼接后会获得一些不同长度的Contigs。
将所有的Contig长度相加,能获得一个Contig总长度。
然后将所有的Contigs按照从长到短进行排序,如获得Contig1,Contig2,Contig3.Contig25。
将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为ContigN50。
ScaffoldN50类似。
20基因组完成图一般错误率是多少?
基因组完成图一般错误率是多少?
单碱基错误率低于十万分之一21.Phred/Phrap/Consed各软件分别起什么作用?
各软件分别起什么作用?
Phredisaprogramthatperformsseveraltasks:
a.Readstracefilescompatiblewithmostfileformats:
SCF(standardchromatogramformat),ABI(373/377/3700),ESD(MegaBACE)andLI-COR.b.Callsbasesattributesabaseforeachidentifiedpeakwithalowererrorratethanthestandardbasecallingprograms.c.Assignsqualityvaluestothebasesa“Phredvalue”basedonanerrorrateestimationcalculatedforeachindividualbase.d.Createsoutputfilesbasecallsandqualityvaluesarewrittentooutputfiles.PhrapisaprogramfoassemblingshotgunDNAsequencedata,a.usestheentirereadcontent(使用全部的(使用全部的read内容)内容)-noneedfortrimming,b.usersupplied+intermallycomputeddata-betteraccuracyofassemblyinthepresenceofrepeats.C.contingsequenceisconsititutedbyamosaicofthehighestqualityofthereads.d.providesextensiveinformationaboutassembly(提供关于组装的广泛的信息)(提供关于组装的广泛的信息),ehandlesverylargedatasets(操作广泛的数据集合(操作广泛的数据集合),f.generateoutputfiles(产生输出文件)产生输出文件).ConsedisaprogramforviewingandeditingassembliesproducedbyPhrap.Keyfeatures:
a.assemblyviewerb.tracefileviewerc.Navigationd.Autofinish。
(。
(Consed是一个用来观察和编辑从是一个用来观察和编辑从Phrap中产生的装配的程序)中产生的装配的程序)Phrap(PHRagmentassemblyprogram)是目前在小的基因组片段或重复序列含量较低的全基因组组装中应用非常广泛的软件。
它常和另几个软件一起组成Phred-Phrap-Consed软件包。
Phred的基本功能是找到电泳道,识别泳道的空间并对信号进行技术处理;将测序仪上得到不同波长光的强度变化轨迹,转化成对应的的A,T,G,C4种碱基;并根据信号峰的间距、形状及信噪比等因素,判断碱基的可信度信息。
从Phred读出的文件,经过处理,生成序列文件和质量文件,两个文件互相对应。
在拼接之前,通常用cross_match软件对反应序列中可能存在的载体序列标记。
将去载体后的反应序列和相应质量值提交给Phrap。
Phrap通过比对找出配对的反应,在Phrap阶段,比对时采用的记分标准为:
匹配为+1,错配为-9(错配涉及N时不罚分),起始空位罚分为-11,延伸空位罚分为-10,这样对于压缩区域配对时倾向于错配。
拼接后的一致序列由最高质量的反应决定,并非由一致序列组成。
Phrap给拼接后的一致序列中每个碱基都赋予一个拼接质量值,给序列的完成提供了一个客观的标准。
Consed是推荐的和Phrap一起使用的序列编辑界面,它的发展和Phrap紧密联系,充分利用了Phrap中产生的丰富的信息。
通过Consed编辑,修改后的数据保存为phd类型文件。
重新用Phrap拼接一次,修改后的结果则整合在新文件中。
(有些英文不太好翻译,不太确定的我就没翻译了,下面中文是吴老师的一篇中文文献中的介绍,可以帮助大家理解22.Phred数值数值20代表什么?
代表什么?
40又代表什么?
又代表什么?
Phred效果效果评估的方程是评估的方程是q=-10xlog10(p),q-qualityvalue(质量评价)(质量评价)p-estimatedprobabilityerrorforabasecall(产生一个(产生一个basecall误差的概率)误差的概率)q=20meansp=10-2(1errorin100bases)q=40meansp=10-4(1errorin10,000bases)23.基因组组装的两类算法分别是什么?
各自代表性软件有哪些?
基因组组装的两类算法分别是什么?
各自代表性软件有哪些?
Overlap-layout-Consensus(OLC)1.Overlap这一步对所有的Read进行两两比对,通常采用快速Smith-Waterman算法,以确定两个Read之间是否有Overlap。
考虑到各个碱基的出错概率,常常对Overlap进行打分,衡量Overlap的可能性高低,一般采用LLR(LogLikehoodRatio)方法打分。
2.Layout根据Read之间的重叠信息形成Contig,即将各个Readmerge起来,形成一个逐次链接的链接体。
这一步实际上是在求一条HamiltonPath,通常采用的是贪心法。
3.Consensus对于每个Contig,利用多序列比对算法,由上述近似readlayout得到一个精准的readlayout,再使用rogressivepair-wisealignment算法得到最后的consensussequence.代表软件有:
Newbler和CeleraAssembler(第二类算法的代表性软件我没有找到)(第二类算法的代表性软件我没有找到)24什么是什么是Lander-Waterman模型?
模型?
单独的一个碱基没有被覆盖的几率为单独的一个碱基没有被覆盖的几率为P0=e-c,对于任意一个位置对于任意一个位置X的碱基至少被的碱基至少被一条一条read覆盖的概率为覆盖的概率为1-e-c,因此测序覆盖期望也为,因此测序覆盖期望也为1-e-c25.如果根据基因组序列的如果根据基因组序列的Kmer分布估计基因组大小,原理是什么?
分布估计基因组大小,原理是什么?
k-mer指的是将一条指的是将一条read,连续切割,挨个碱基划动得到的一序列长度为,连续切割,挨个碱基划动得到的一序列长度为K的的核苷酸序列核苷酸序列在利用基因组序列在利用基因组序列Kmer分布估计基因组大小的前提基于一个假设,就是我分布估计基因组大小的前提基于一个假设,就是我们所挑选的们所挑选的Kmer是从可以覆盖整个基因组序列的,根据是从可以覆盖整个基因组序列的,根据Landerwaterman算法,这算法,这个算法的公式为个算法的公式为G=Knum/Kdepth,G是代表基因组大小,是代表基因组大小,Knum是整个是整个K-mer的数目,的数目,Kdepth是预测的是预测的K-mer的深度。
如果我们能获得的深度。
如果我们能获得K-mer的预测的深度,我们就能计算的预测的深度,我们就能计算出基因组的大小。
出基因组的大小。
K-mer频次的分布是符合泊松分布的,我们将频次的分布是符合泊松分布的,我们将K-mer分布曲线的分布曲线的peak当做预期的当做预期的K-mer深度,从而计算出基因组大小。
深度,从而计算出基因组大小。
26.什么是什么是CpG岛?
岛?
基因组中富含基因组中富含GC碱碱基的基的DNA区段,满足区段,满足CpG岛的条件是岛的条件是1.连续连续500bp的的DNA顺序;顺序;2.C+G含量大于含量大于55%;3.观测到的观测到的CpG双碱基数目比预期的数目大于双碱基数目比预期的数目大于0.65.27.真核生物中重复序列主要有哪几类?
真核生物中重复序列主要有哪几类?
主要有主要有5类类:
1.Interspersedrepeats(散置的重复序列)(散置的重复序列)2.Processedpseudogenes(加工的假基因)(加工的假基因)3.Simplesequencerepeats(简单重复序列)简单重复序列)4.Segmentalduplications(重复片段)(重复片段)5.Blocksoftandemrepeats(串联重复序列)(串联重复序列)(注:
可能英文翻译不准确,尽量记英文比较靠谱)(注:
可能英文翻译不准确,尽量记英文比较靠谱)28.如何注释基因组中的基因?
如何注释基因组中的基因?
基因组注释主要包括四个研究方向:
重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。
基因的注释主要包括密度的变化,长度,基于一些生物信息学方法和一些实验室研究的方法和证据进行的结构和功能预测,包括预测基因组中的基因位点、开放性阅读框架(ORF)、翻译起始位点和终止位点、内含子和外显子区域、启动子、可变剪切位点以及蛋白质编码序列等等。
29.有哪几种高通量方法研究基因的表有哪几种高通量方法研究基因的表达水平?
各自特点是什么?
达水平?
各自特点是什么?
主要有5种高通量方法研究基因的表达水平,分别是表达序列标签(EST)、基因表达系列分析(SAGE)、CAGE、基因芯片技术、RNA-seq.基因芯片技术特点:
通过缩微技术,根据分子间特异性地相互作用的原理,将生命科学领域中不连续的分析过程集成于硅芯片或玻璃芯片表面的微型生物化学分析系统,以实现对细胞、蛋白质、基因及其它生物组分的准确、快速、大信息量的检测。
生物芯片技术与传统的仪器检测方法相比具有高通量、微型化、自动化、成本低、防污染等特点。
RNA-seq特点:
数字化信号数字化信号:
直接测定每个转录本片段序列,单核苷酸分辨率的精确度,同时不存在传统微阵列杂交的荧光模拟信号带来的交叉反应和背景噪音问题。
高高灵敏度灵敏度:
能够检测到细胞中少至几个拷贝的稀有转录本。
全基因组分析全基因组分析:
可以对任何物种进行全基因组分析。
无需预先设计特异性探针,因此无需了解物种基因信息,能够直接对任何物种进行转录组分析。
同时能够检测未知基因,发现新的转录本,并精确地识别可变剪切位点及cSNP,UTR区域。
检测范围检测范围:
高于6个数量级的动态检测范围,能够同时鉴定和定量稀有转录本和正常转录本。
EST测序对每个转录本测定400-500bp的标签序列,每个cDNA文库测定数万个EST刻画所研究的转录组,但是其代表转录本片段短,只有一轮的测序,序列质量低。
SAGE:
利用短标签来识别相应的转录本(9-20bp),比起EST测序通量上有很大提高,一个SAGE文库通常能测序几十万个短标签,使转录组抽样深度大大提高。
CAGE:
CAGE标签是来自于没有归一化的cDNA文库中的全
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因组 总结 终极