书签分享收藏举报版权申诉 / 56

立即下载加入VIP,免费下载

当前位置：首页 > 党团工作 > 入党转正申请 > 关联分析.ppt

关联分析.ppt

文档编号：18841284
上传时间：2024-01-11
格式：PPT
页数：56
大小：15.05MB

关联分析.ppt

《关联分析.ppt》由会员分享，可在线阅读，更多相关《关联分析.ppt（56页珍藏版）》请在冰点文库上搜索。

关联分析.ppt

关联分析,2013年5月9日,outline,

（一）关联分析基础知识1.关联分析的概念2.关联分析的基础连锁不平衡3.影响关联分析的因素4.关联分析的优点5.关联分析的方法6.关联分析的两种策略和发展趋势,

（二）Genome-wideassociationanalysesPaper,2.关联分析的基础连锁不平衡,生物在进化的过程中，对于某一特定基因座，在自然选择、人工选择、重组、突变、遗传漂变、迁移、群体扩张和瓶颈效应等因素的影响下，某一“有利”变异（或等位基因）在正向选择的过程中被保留下来，因而群体中具有此等位基因个体的比例将会不断增加，成为优势变异而被固定下来；同时，携带其它等位基因的个体则会逐渐减少甚至消失。

因此，该基因座的遗传多样性就会急剧下降。

由于存在连锁关系，该基因座两侧一定范围内的序列（包括中性基因座）也会随着该“有利”等位基因的固定而被大量保留下来，从而使其遗传多样性也大大降低。

遗传学上将这种对个别基因的正向选择致使其侧翼遗传多样性降低的现象称为选择牵连效应，也称选择搭载效应（MaynardandHaigh1974）。

由于基因座间的选择搭载效应，使群体内个体在不同位点、基因间发生非随机性关联，即连锁不平衡（linkagedisequilibrium）。

当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时，就称这两个座位处于连锁不平衡状态。

连锁不平衡既包括染色体内的连锁不平衡，又包括染色体间的连锁不平衡。

1.当|D,|=1时,这两个位点处于完全连锁不平衡态；2.当|D,|1时,表示祖先中的完全连锁不平衡被打破，在群体演化过程中两个位点间发生了重组;3.r2和|D,|数值越大,两基因座间的连锁不平衡性越强。

尽管|D,|可以测量连锁不平衡的强度,但|D,|值在很大程度上依赖于样本的大小,当样本较小,特别是标记中有出现频率很小的等位基因时,|D,|值将偏高。

因而很难比较不同样本间连锁不平衡的水平及衰减程度.当值接近1时表示群体演化中几乎没有重组发生,而当|D,|值小于1时,不管是用来测量连锁不平衡的大小还是比较不同研究之间连锁不平衡的强度都需要谨慎使用。

1.什么是LD的衰减？

LD的衰减指位点间由连锁不平衡到连锁平衡的演变过程2.影响LD的因素突变和重组是影响LD高低的主要因素.LD是由突变产生的多态形成的,因重组的发生而打破.（Remingtonetal.2001;Tenaillonetal.2001）不同物种的LD衰减距离不同，同一作物的不同群体、同一群体的不同基因座的LD衰减距离也不同.（Reichetal.2001）3.研究LD的衰减有什么用？

LD的衰减距离决定关联分析时所需标记密度，也在一定程度上决定关联分析的精度,DecayofLD（LD的衰减）,3.影响关联分析的因素,1.样本的遗传多样性2.LD的衰减（decayofLD）3.样本的大小4.群体结构（populationstructure）5.材料间亲缘关系（Kinship）6.交配体系,（CalculatebyGeneticPowerCalculatorPurcelletal.（2003）Bioinformatics,19:

149-150）.,群体结构:

thenon-randomdistributionofgenotypesamongindividualswithinapopulation,可能导致基因多态性位点与性状的相关性并非由功能性等位基因引起,从而提供假阳性结果。

（b）multi-familysample,（c）samplewithpopulationstructure,（d）samplewithbothpopulationstructureandfamilialrelationships,（e）samplewithseverepopulationstructureandfamilialrelationships,（a）idealsamplewithsubtlepopulationstructureandfamilialrelatedness,Kinshipdefinitionandinterpretation,Inagenericway,kinshipcoefficients,alsocalledcoancestrycoefficients,arebasedontheprobabilityofidentityofallelesfortwohomologousgenessampled.Insomeparticularway.Inthecaseofakinshipcoefficientbetweentwoindividuals,thetwogenesarerandomlysampledwithineachofthetwoindividuals.,Plaisthefrequencyofalleleaatlocuslinthereferencesample,nlisthenumberofgenesdefinedinthesampleatlocusl（thenumberofindividualstimestheploidylevelminusthenumbermissingalleles）,（Loiselleetal.1995,AmericanJournalofBotany82:

1420-1425）,4.关联分析的优点,1.不需要专门构建作图群体，自然群体或种质资源都可作为研究材料；2.广泛的遗传材料可同时考察多个性状大多数QTL的关联位点及其等位变异，不受传统的“两亲本范围”的限制；3.自然群体经历了许多轮重组后，LD衰减，存在于很短的距离内，保证了定位的更高精确性；,5.关联分析的方法,1.关联分析最基本的统计分析方法有方差分析、T检验和回归分析,目前新发展的关联分析统计方法主要有：

（1）传递不平衡检测（Transmissiondisequili-briumtest,TDT）

（2）基因组对照（Genomiccontrol，GC）（3）结构关联（Structuredassociation，SA）（4）混合线性模型（Mixedlinermodel，MLM）（5）巢式关联作图（Nestedassociationmapping，NAM）（6）上位性关联分析（Epistaticassociationmapping，EAM）,不同的样本具有不同的群体结构特征。

（1）.人类疾病的研究中一般选用TDT来分析基于数个较小家系的样本的遗传基础（Corderetal.1994），而对于数量性状的检测则选用TDT（QTDT）来分析。

（2）.GC和SA这两种方法常用于存在群体结构的样本，且通用于人类和植物关联分析研究。

当选用GC分析时，则先假定群体结构对所有位点的影响相同，然后用一组随机标记来评估群体结构对测验统计产生的影响程度（DevlinandRoeder1999）。

（3）.SA分析是用一组随机标记来计算材料相应的Q值（第个材料的基因组变异源于第个群体的概率），然后将Q值作为协变量纳入到随后的一般线性回归或逻辑回归统计分析中（Pritchardetal.2000;Falushetal.2003）。

（1）.GLMy=markereffect+populationstructure+residual,2关联分析模型：

GLM、MLM,其中Yj是第j个材料数量性状测定值,Ipj是第j材料第p等位变异出现的指示变量,是群体各位点各等位变异的平均效应,X1jXkj是第j材料基因组变异源于第1k群体的概率Q值，1k是亚群体各位点各等位变异的平均效应，是残差。

使用TASSEL软件的GLM（Generallinearmodel）程序，是将各个体Q值作为协变量，对标记变异分别与各个性状的表型变异进行回归分析。

GLM回归方程是：

（2）.MLMy=markereffect+populationstructure+K+residual,该方法利用标记信息计算每品种归属于各亚群的后验概率Q矩阵和品种间亲缘关系K矩阵，将两矩阵嵌入混合线性模型中以矫正群体结构和遗传背景对当前检测QTL的影响Yu等（2005）,其中y为表型值,b0为截距,bi为最终模型中第i个位点的效应,k为最终模型中显著位点的个数,xi为对y的发生率,e为残差。

Yu等（2008）提出了同时整合连锁分析和关联分析二者优势的巢式关联分析方法，其统计模型为：

Q+KmodelhadhighestpowertodetectSNPswithtrueeffects,3实验室关联分析的发展,Zhang等（2005）提出了基于品种系谱的QTL定位方法。

其主要思想是利用品种的系谱关系计算品种间的后裔同样（identitybydescent，IBD）值，并将IBD值嵌入回归模型或方差组分模型以检测QTL的位置与效应；Zhang等（2008）提出了基于同胞对的Haseman-Elston回归模型方法。

建立了由单点分析拓展到多QTL分析的全基因组多QTL定位Haseman-Elston回归方法（MQHE）。

L等（2009）对（Grupeetal.在2001）年提出的“insilico”作图进行拓展，发展了多位点的“insilico”作图（MLISM）。

Zhang等（2010）在MLM的基础上提出了一种压缩混合线性模型方法（cMLM）。

该方法通过引入聚类数和分组数两个模型参数，将个体先聚类为组来更好地获得亚群间的品种相关，为MLM提供了额外的优化机会，提高了全基因组关联分析的统计功效。

李梦（2011）基于压缩混合线性模型方法（cMLM），提出了改进压缩混合线性模型方法（EnrishedcompressedMLM,ECMLM）。

L等（2011）提出了整合全基因组所有标记信息量的上位性关联分析方法（epistaticassociationmapping，EAM）。

6.关联分析的两种策略和发展趋势,

（1）关联分析与基因功能的验证复杂数量性状基因的功能验证问题

（2）关联分析与功能性标记的开发传统方法：

a.重组、遗传漂变;b.普适性问题功能标记：

从影响性状变异基因的功能域来开发标记（3）全基因组关联分析又是分子育种的GWAS也是植物研究的热点，可能会持续很长的时间。

其中的根本原因就是，genotyping的费用大大降低了，如果要和育种关系起来，前途无量啊,

（1）种质材料的选择。

种质资源的选择对发掘优异等位基因非常关键。

为了能够检测到最多的等位基因，所选材料应尽可能地包括某物种全部的表型和遗传变异（Flint-Garcia,etal.,2005）。

（2）群体结构分析。

通过运用基因组范围内的大量独立遗传标记（如SSR、SNP、RFLP或AFLP等）可以检测并校正种质材料的群体结构。

理想的标记可以是适量的SSR，或者是大量的SNP，但如果所选种质材料来源有限，AFLP标记则是理想的选择（王荣焕等,2007b;Zhuetal.,2008）。

（3）目标性状的选择及其表型鉴定。

目标性状的选择应兼顾性状的生物学重要性、性状评价的准确性、性状相关数据采集的简易性及可重复性（Flint-Garciaetal.,2005）。

（4）关联分析。

基于全基因组扫描的关联分析中，分析了种质材料的群体结构、标记间LD水平和目标性状的表型数据后，即可进行关联分析；而在基于候选基因的关联分析策略中，下一步是候选基因的选择及其核苷酸多态性检测，然后进行关联分析（Zhuetal.,2008）。

关联分析的步骤,引言,血清尿酸的升高，可引起痛风，痛风是风湿性关节炎的一个普遍的症状，本文通过结合全球尿酸盐遗传学协会（GUCU）中的具有欧洲血统的140000个体数据分析，在全基因组上，鉴定和复制了28个与血清尿酸盐浓度显著有关的基因位点，其中18个为新位点。

这些位点与许多非欧洲血统的个体都有类似的关联性。

我们通过转录表达和尿酸代谢途径，进一步的分析了这些与痛风有关的位点。

网络分析揭示了尿酸在人体整个系统中抑制-活化信号的传导路径和糖代谢的途径。

这些新的相关血糖尿酸盐浓度的候选基因，对血清尿酸的生成和分解具有重要的影响，这让我们知道了如何去治疗和预防痛风。

文章选题背景,血清尿酸浓度的遗传率估计为40-70，这更加证明了搜索其遗传因素的重要性。

以前的全基因组关联研究（GWAS）到迄今为止，已确定了11个基因位点与痛风患者的尿酸浓度相关联。

这些位点的SNPs加在一起一共可以解释血清尿酸浓度的遗传方差为5-6左右，这意味着额外的位点仍有待于进一步的确定。

因此，我们的目标是在超过140,000具有欧洲血统和大约70000个来自GUCU中的痛风病例个体中识别和验证与其相关联的变异。

这些变异可能为识别痛风新的潜在治疗遗传基因位点提供基础。

Uricacidisafinalbreakdownproductofpurineoxidationinhumansandispresentinthebloodasurate.Elevatedconcentrationsofserumuratehyperuricemiacancausegout.Goutisthemostprevalentinflammatoryarthritisindevelopedcountries,withanestimated8.3millionUSadultsin20072008havinghadatleastoneoftheextremelypainfulattacks.Prevalenceisincreasing,owinginparttopopulationaging,dietaryandlifestylefactors,andrisinglevelsofobesityandinsulinresistance.Chronicgoutinflictsaconsiderablesocialandeconomicburdenresultingfromtheassociatedpainanddisabilityaswellasreducedwork-relatedactivityandproductivity.,1Aquantile-quantileplotforthe2,450,547investigatedautosomalSNPsinthediscoveryGWASmeta-analysisshowedmanymoreSNPswithlowobservedPvaluesthanexpected,evenafterexcludingSNPsinknownurateconcentrationassociatedregions（SupplementaryFig.1）.2All2,201SNPsassociatedwithserumurateconcentrationsatP5108inthediscoverystagearelistedinSupplementaryTable4.3Overall,37differentgenomiclociwereidentifiedthatcontainedSNPsassociatedwithserumurateconcentrationsatP1106;26ofthesewereassociatedatgenome-widesignificance（P5108,10knownand16newloci）.,Lociassociatedwithserumurateconcentrations,Meta分析的基本步骤

（1）明确简洁地提出需要解决的问题。

（2）制定检索策略，全面广泛地收集随机对照试验。

（3）确定纳入和排除标准，剔除不符合要求的文献。

（4）资料选择和提取，包括原文的结果数据、图表等。

（5）各试验的质量评估和特征描述。

（6）统计学处理。

a异质性检验（齐性检验）。

b统计合并效应量（加权合并，计算效应尺度及95%的置信区间）并进行统计推断。

c图示单个试验的结果和合并后的结果。

d敏感性分析。

e通过“失安全数”的计算或采用“倒漏斗图”了解潜在的发表偏倚。

（7）结果解释、作出结论及评价。

（8）维护和更新资料。

是指:

用统计学方法对收集的多个研究资料进行分析和概括，以提供量化的平均效果来回答研究的问题。

其优点是:

通过增大样本含量来增加结论的可信度，解决研究结果的不一致性,meta分析是对同一课题的多项独立研究的结果进行系统的、定量的综合性分析。

（GoffinetB,GerberS.Quantitativetraitloci:

aMeta-anlaysisJ.Genetics,2000,155;463-473）,Meta分析,关联分析是在群体水平上研究某种疾病与某个特定等位基因的频率相关性,最常见的实验设计方法是病例对照研究（Casecontrolstudy）。

它以某人群内一组患有某种疾病的人群（称为病例组）和同一人群内未患该病但在与患病有关的某些已知因素（包括社会人口学因素和环境暴露）方面与病例组相似的人群（称为对照组）作为研究对象,通过比较病例和对照组间遗传标记频率的差异,从而推断该标记与该疾病易感性的相关关系;如果遗传标记的等位频率在病例组和对照组间具有显著的统计学差异,则可认为该等位型与疾病存在统计学关联,并可推断该标记存在于疾病易感基因座内,或者与疾病易感基因间存在连锁不平衡关系。

它无需家系资料,避免了家系患病成员临床和人口学资料和DNA标本不易获取等限制因素。

（ZHILT,HEFC.Detectionandcontrollingforpopulationstratificationinassociationstudiesofhumancomplexdisease,HEREDITAS,2007,29:

3-7）,病例对照研究,Meta-analyses.Allmeta-analyseswerecarriedoutinduplicatebytwoindependentanalysts.Meta-analysiswasperformedontheresultsofallgenome-widescansusingafixed-effectsmodelapplyinginversevarianceweightingasimplementedinMETAL46.Resultswereconfirmedbycomparingtheresultstothosefromazscorebasedmeta-analysis.SNPsthatwerepresentin75%ofallsamplescontributingtotherespectivemeta-analysiswereexcluded,andtheremainingSNPswereusedasthebasisforallsubsequentanalyses.,Assessmentofthepresenceofindependentsignalsateachlocus.TwostepswereperformedtoidentifyindependentSNPsinthesameregionthatassociatedwithserumurateconcentrationintheoverallanalyses.First,SNPswithPvaluesof1105wereaggregatedonthebasisoftheLDstructurefromtheHapMaprelease28UtahresidentsofNorthernandWesternEuropeanancestry（CEU）datasetusingPLINK48.Second,toverifythepotentialindependentassociationsfromthefirststep,amultiple-regressionmodelwascalculatedin32ofthestudies,adjustingforallleadSNPsatonce,andmeta-analysiswasperformed,followedbyacomparisonoftheeffectestimateforeachSNPwiththosefromthesingle-SNPassociationmodelusingattest.,Onlinemethods,ThreesecondaryanalyseswereconductedtoidentifyadditionalurateconcentrationassociatedSNPs.First,asraremonogenicsyndromesfeaturinggoutcanbecausedbyX-chromosomemutationsinPRPS1（MIM300661）andHPRT1（MIM300322）,wequeried54,926X-chromosomalSNPsforassociationwithserumurateconcentrationsinameta-analysisof72,026participantsfrom25oftheGUGCstudies.Second,becauseofthehigherprevalenceofgoutinmenandtheknownsex-relateddifferencesintheeffectsofurateconcentrationassociatedvariantsinSLC2A9andABCG2,weconductedmeta-analysesofGWASseparatelyfor49,825menand60,522women.Third,weconductedasearchforassociatedSNPsingenesthatarefamilymembersofknownuratetransportergenesand,tothebestofourknowledge,hadnotyetbeenconnectedtouratetransportinhumans.,Secondaryanalyses,1.XChromosomalManhattanPlot,2.Sex-specificEffectsforUrate-Asso