医学专业生物信息学第15章.ppt
- 文档编号:327071
- 上传时间:2023-04-28
- 格式:PPT
- 页数:97
- 大小:2.29MB
医学专业生物信息学第15章.ppt
《医学专业生物信息学第15章.ppt》由会员分享,可在线阅读,更多相关《医学专业生物信息学第15章.ppt(97页珍藏版)》请在冰点文库上搜索。
,第十五章单核苷酸多态与人类疾病,SNPsInHumanDiseases,第一节引言,Introduction,单核苷酸多态(SingleNucleotidePolymorphisms,SNPs)是人类染色体上的单个核苷酸的差异。
一、什么是单核苷酸多态,二、SNP相关的基本概念,1.等位(allele)SNP是一种双等位多态(即SNP的二态性)2.基因型(genotype)同源染色体上一对SNP等位的组合3.单体型(haplotype)特定染色体区域相邻近的SNP的组合,SNP等位、基因型、单体型与TagSNP,4.最小等位频率(minorAlleleFrequency,MAF)群体中,一对SNP等位中出现较少的等位的频率,以5%为界将SNP分为常见SNP和罕见SNP5.非同义SNP(non-synonymousSNP)能够改变基因产物结构或影响基因表达量的SNP,第二节SNP分型技术与数据资源SNPGenotypingTechnologiesandResources,一、SNP检测和分型技术,SNP分型(genotyping)是对SNP基因型的检测过程SNP分型包括两方面内容:
对未知SNP的进行分析和对已知SNP进行分析,
(一)基于分子杂交的SNP分型技术,1.等位基因特异寡核苷酸片段分析(allele-specificoligonucleotide,ASO)2.基因芯片方法,
(二)以SNP影响核酸构象为基础的方法,1.变性梯度凝胶电泳(denaturinggradientgelelectrophoresis,DGGE)和温度梯度凝胶电泳(temperaturegradientgelelectrophoresis,TGGE)法2.单链构象多态性(singlestrandconformationpolymorphism,SSCP),(三)基于酶切的方法,限制性片段长度多态性(restrictionfragmentlengthpolymorphism,RFLP),(四)测序方法,1.直接测序方法2.SNP-shot-Gene-Scan技术,直接测序技术获得的SNP分型数据,二、连锁不平衡、单体型与TagSNP,
(一)连锁不平衡,连锁不平衡(linkagedisequilibrium,LD)是指相邻基因座上等位基因的非随机相关。
导致连锁不平衡的主要因素有遗传漂变、人口增长与群体结构改变、重组率变化、突变率变化和基因转换。
(二)连锁不平衡的量度,常用的连锁不平衡量度方法主要有D、r2和LOD值,1r2值量度LDr2代表两位点在统计学上的关系,其表达式为:
r2的数值表示一个位点可反映另一位点信息量的程度,r2=1称为完全连锁不平衡,这时两位点等位基因频率相同,只观察一个标记即可提供另一个标记的全部信息。
2D值量度LDD值又称为连锁不平衡系数,其表达式为:
当D=1时,说明两个位点间没有发生重组,与r2相比较,当D于1时两位点等位基因频率并不需要相同,它只是反映最近一次突变发生后突变位点与临近多态性位点的关系。
三、国际人类单体型图计划及其应用,
(一)国际人类单体型图计划概况,国际人类基因组单体型图计划(TheInternationalHapMapProject,HapMap)是继国际人类基因组计划之后,人类基因组研究领域的又一个重大国际合作项目。
1.HapMap计划起始于2002年,由美、加、中、日、英、尼日利亚等国研究机构发起、参与及完成,中国科学家承担总计划的10。
2.项目共取样270个正常个体:
欧裔美国人和尼日利亚雅鲁巴人(非洲)各30个核心家系,中国北京汉族人及日本东京人各45个个体。
3.一期已于2005年完成,成功分型100多万个常见SNP位点的识别,达到平均每3kb一个SNP的测定。
4.二期计划在一期基础上完成300多万个SNP位点的分型,构建起一张精度更高、信息更完整的多人种遗传多态图谱。
5.三期计划已经开展,在进一步测定原有群体基因型基础上,加入另外7个不同历史遗传背景的人群,部分分型数据已经发布。
6.HapMap计划期望在全部完成时能够提供一个包括全部人类遗传差异的多态组图谱,同时带动其他人类遗传变异的发现和研究。
HapMap中SNP的分布密度(截至2005年10月),
(二)HapMap数据特点,1.在多个个体的DNA样品中鉴定单核苷酸多态(SNP)。
2.将群体中频率大于1%的那些共同遗传的相邻SNP组合成单体型。
3.在单体型中找出用于识别这些单体型的标签SNP。
这样,HapMap提供的每个研究个体的数据包括SNP等位、基因型、基因型频率、200kb范围内SNP之间的LD量度。
(二)HapMap数据的拓展应用,1.基于大群体、多种群的人类单核苷酸多态数据的重组率推算提供了我们一张基因组进化痕迹图。
2.连锁不平衡的计算给了我们一张基因组块状连锁结构图。
3.种群差异研究让我们看到一张种群间基因组结构差异图。
4.SNP的杂合情况告诉我们人类基因组上受到选择的区域或区域内的基因。
5.利用SNP位点向两边延伸的长度差异情况,我们可以观察到一些基因组上近期正在进行的选择事件。
6.高密度的SNP位点,为进一步加强和完善基因组范围的表型和遗传相关性分析(关联研究或数量性状定位)提供了可能。
(四)利用HapMart进行科学研究,为了便于科研工作者快速提取感兴趣的SNP数据,BioMart开发了方便、友好的SNP获取网络平台HapMart。
HapMart建立在HapMap数据基础上。
支持研究者输入SNP、基因、染色体区段等信息进行限定条件下的SNP查询及相关信息输出。
以IL10为例介绍基于基因的SNP查询过程:
1.输入设置选择中国群体,并在GENEFILTERS框中输入感兴趣的基因名IL10,2.输出设置选择感兴趣的输出信息,3.结果导出以界面和文件形式输出限定条件下IL10上的SNP位置、基因型、群体频率等信息,四、重要的SNP数据库,
(一)SNP存储与维护数据库dbSNP,为了满足对基因组范围总体变异的需求,解决在关联研究、基因定位、功能和药理遗传学、群体遗传学、进化生物学以及定位克隆、物理作图等领域中大规模抽样设计的需求,NCBI与NHGRI协作创建了dbSNP。
dbSNP中SNP数据的增长速度,1dbSNP的主要功能
(1)遗传变异序列环境分析:
对变异本身进行基于周围序列环境的功能分析
(2)基于NCBI的遗传变异交叉注释:
辅助进行染色体功能元件的功能发现和识别(3)外部资源整合:
跨平台的交叉引用(4)遗传变异的功能分析:
连系多种数据平台进行变异功能发现,2dbSNP数据特征
(1)收录人类已知的所有SNP数据,及已知的跨物种的SNP、插入/缺失、拷贝数和微卫星多态。
(2)部分SNP包含频率和基因型数据、实验条件、分子背景,以及功能特性和临床变异的定位信息。
(3)到2009年10月,dbSNP涉及到55个物种的1.5亿个SNP,编码区SNP超过2千万,具有频率信息的SNP超过300万个。
3dbSNP的检索界面,4dbSNP与EntrezGene的交叉引用,
(二)关联研究基因型数据的存储与整理dbGap,1.dbGap的主要功能
(1)dbGaP的开发是为了存储和发布基因型和表型相关的研究数据及研究结果。
(2)包括全基因组关联研究、医疗测序、分子诊断化验,以及基因型与非临床性状(数量性状)之间的关联性。
(3)用于高通量、低成本、高效率的分析方法研究,发现海量基因型和表型数据相关性。
2.dbGap中的数据类型
(1)研究文件包括研究项目的说明,协议文件和数据收集文书。
(2)表型数据包括在个体水平上的和以摘要形式进行个体的表型信息介绍。
(3)遗传数据包括研究对象的个体基因型、谱系信息、精细定位结果和重新测序的描述。
(4)统计结果包括原始的关联或连锁分析获得的结果。
第三节基于SNP的复杂疾病遗传定位方法SNP-basedcomplexdiseasemappingmethods,基于群体分子标记频率的统计分析方法进行遗传特性与疾病发生之间的相关性研究,实现疾病基因的染色体定位,不需要先验的生物学知识,是一种强大的疾病基因识别手段。
随着SNP分型技术的发展,SNP作为一种最重要的分子标记,能够应用于孟德尔遗传病的研究,同时被广泛的用来进行复杂疾病的染色体定位。
一、疾病定义与样本选取偏好,1.临床表型选取具有典型临床特征和明确诊断依据的个体作为疾病研究对象。
2.发病年龄具有早发特征的患病个体更倾向于有较明显的遗传特点。
3.家族史有家族史的个体能够较为准确的诊断疾病种类。
4.严重程度较为严重的患病个体,具有较明显的遗传特点。
5.群体分层选取的研究群体应具有同质性。
二、连锁分析进行风险SNP定位原理,连锁分析(linkageanalysis)是根据家系中遗传标记重组率来计算两等位之间距离的方法。
连锁分析主要是通过分析已知的性状或疾病表型与基因型在家系中遗传模式,来定位新的易感位点和易感区域。
连锁分析是用于研究家系中标记传递的一种分析策略,根据连锁分析过程中是否依赖于假设模型,我们将连锁分析方法分为两类:
参数连锁分析和非参数连锁分析。
(一)参数连锁分析方法,对于孟德尔遗传病,易于比较清楚的知道该疾病的遗传方式、外显率、基因频率等指标,从而确定一个准确的遗传模型进行连锁分析。
统计方法的发展,某些遗传模型并不清楚的疾病也通过改变策略而适用于连锁分析,但相对准确的模型建立是参数连锁分析成功的基本条件。
直接计分法和LOD值法是最常用的参数连锁定位方法。
这里我们以LOD值法为例对参数连锁分析方法进行简要的介绍:
1.LOD值法进行连锁分析首先针对某一疾病收集一定数量的家系资料进行分离分析,确定遗传模型。
2.通过文献检索了解其可能的决定性状的染色体区域,并对该区域的SNP进行查询和筛选,基于选定的SNP,对该家系成员进行SNP分型。
3.通过连锁分析估计疾病与SNP在子代中重组的发生率,计算LOD值,确定重组分数及相应的遗传距离,并进行假设检验,判断易感基因是否与遗传标记连锁。
LOD值是指在一定重组率条件下,两个位点相连锁的似然性和不连锁的似然性比值的对数值,即,在进行连锁分析时,要计算0(不重组)到0.5(随机分配)的一系列LOD得分。
当LOD得分为+3或更大时,肯定连锁;当LOD得分小于或等于-2时,排除连锁。
常用的基于LOD的连锁分析工具有LIPED、LINKAGE、S.A.G.E.等自由软件包早期的连锁分析方法对模型的依赖性较强,计算速度慢等原因,“混合模型”方法、多位点连锁分析方法、吉布斯取样及蒙特卡罗方法等逐步发展。
参数连锁分析过程中的注意事项:
1.参数连锁分析家系选择过程中需要考虑到五项基本要求做出合理的家系筛选。
2.对于某些外显率并不明确的疾病,还需要对外显率进行估计,而采用疾病个体特异的分析策略。
3.家系中某些个体的疾病表型并不典型,难以确定是否受累,如某些精神疾病,需要进行人为的判断或重新划分。
(二)非参数连锁分析方法,非参数连锁分析是一种在分析前不需要确定疾病遗传模式(如基因型频率、外显率等)或半依赖模型的分析方法。
最常用的是等位共享方法,不依赖于遗传模型的构建,而是一个排除模型的过程。
通过显示受累亲属间高于随机情况的共享遗传相同的染色体区域(或位点)概率来证实染色体区域的遗传模式与孟德尔遗传之间的差别。
等位共享方法研究家系中亲属共享来源于同一祖先的特定染色体区域或位点的频率,也叫做血源一致性(identical-by-descent,IBD),然后将某个位点共享IBD的情况与随机进行比较。
还有一个与之相似的概念状态一致性(identical-By-State,IBS),用来描述亲属对之间共享同一等位的频率。
随着遗传标记分型技术,特别是SNP分型技术的进步,IBD和IBS方法也逐渐应用于基因组范围关联研究中。
IBD和IBS示意,等位共享的方法是一种非参数方法,比参数连锁分析方法有更宽泛的应用范围,而且即使在受累亲属中不完全显性、表型复制、遗传异质性和高频等位等影响因素存在时,也有较好的表现。
唯一的缺陷是等位共享方法提供的结果一般说来没有参数连锁分析方法显著。
三、关联研究发现疾病风险SNP,关联研究(associationstudy)是(一般情况下)不依赖于家系信息的一种遗传定位策略,由于资源丰富,分析方法简便,是目前遗传定位研究中最常用的分析方法。
关联研究通过检验某个特定的等位在疾病组和对照组中出现的频率差异来判断此等位是否是疾病易感等位。
以SNP而言,发现风险SNP的过程可以采用四格表2检验进行等位频率分析,也可以采用2*32检验进行基因型分析。
SNP与疾病关联性进行分析,方法上的简捷性显而易见,但关联研究也有比较明显的缺点:
1.对照组样本选取具有严格的限制2.由于关联研究可能针对任何一个分子标记进行,而不存在先验的假设,对关联研究发现的风险SNP尚需要进行可靠的功能验证。
研究中对标记信息的分析比研究方法本身更重要,下面我们将从关联研究机理上来探讨风险SNP发现应注意的问题。
关联研究中发现SNP与疾病发生之间的显著相关性可能存在三个原因:
(1)SNP本身就是一个致病的SNP。
(2)SNP本身不能导致疾病,但与导致疾病的基因处于连锁不平衡状态。
(3)研究群体选择失误造成的统计显著性。
其中第三种情况是关联研究过程中需要避免的,所以关联研究过程中还应注意三点:
(1)关联分析的样本选取要严格限制在同质性群体中。
(2)关联研究对照组选取应当谨慎,必要时选择未受累亲属作为内对照。
(3)如条件允许,对于获得的阳性位点可进行传递不平衡检验(transmissiondisequilibriumtest,TDT)来确认发现的致病等位在家庭遗传中倾向于向患病子代遗传。
由于复杂疾病发生过程中,存在遗传位点间的相互作用,单个位点的关联分析方法有时不能获得足够的信息来发现某些区域与疾病之间的关联性。
基于单体型、罗杰斯特回归、主成分分析、随机森林等统计学和机器学习方法的遗传定位方法成为有用的研究手段,得到了比较广泛的应用。
关联研究和连锁分析有很多重要的区别:
1.关联研究检验疾病与等位频率在群体中是否存在相关性,连锁分析检验疾病与位点是否在家系中共同传递。
2.当群体中致病因素是多样的,而且致病位点相互独立,散在存在的时候,每个位点与疾病关联都将很弱,遗传定位中往往只能检测到连锁而难以发现关联。
3.当致病位点等位效应较弱,对疾病贡献较小时,但在疾病个体中有较高的等位频率时,基于家系的连锁分析难以发现潜在的传递模式,而关联研究却能识别出这种致病位点。
4.关联研究和连锁研究本身并不存在孰强孰弱,而需要考虑实际解决的问题进行选择。
四、遗传分析中的统计显著性,遗传分析方法虽然笼统的分为两类,但相应的研究方法众多,既有传统的统计分析方法,也有衍生而来的机器学习方法。
但无论采用何种方法进行复杂疾病的遗传分析,最终都将面对统计结果的取舍问题,即如何进行统计显著性的阈值设定。
这个问题,还将因为遗传分析中分子标记的增多或检验模型的增加而变得更为严峻。
对于遗传定位的结果取舍,特别是多重检验问题一向都是人们关注的重点,采用多次随机进行SNP与疾病相关性检验进行显著性水平选取是目前为回避多重检验校正而广泛采用的一种方法。
另外,考虑到基因组中广泛存在的连锁不平衡问题,对待检的SNP进行LD修正是降低多重检验校正影响的一种有效方法。
此外,在芯片分析中采用的FDR方法也经常用于遗传定位结果的修正。
四、基因组范围关联研究与系统生物学方法在研究中的应用,HapMap推动的商业分型芯片发展,促使遗传定位研究由几个至数千个标记发展到50至100万SNP,极大的推动了复杂疾病风险定位的研究。
基因组范围关联研究(genome-wideassociationstudy,GWAs)已经应用于40多种复杂疾病的研究,绝大多数的研究涉及的SNP数目已经超过50万,并通过GWAs,成功获得了150多个致病基因。
GWAs研究成果,高维度的SNP数据也给统计学方法带来了很大的压力,多重检验问题困扰着大规模的遗传定位研究。
基因组范围关联研究主要通过两个策略来实现风险SNP和风险基因的发现:
1.采用合并不同实验室样本数据的方法,通过提高研究某个疾病的样本量来加大风险SNP的显著性水平,即我们常说的meta分析方法。
2.采用候选区域精细定位的方法。
候选区域精细定位策略进行GWAs,人们逐渐将目光从统计方法研究和提高统计显著性角度转移到关联分析结果的信息挖掘上,称之为第二代关联分析策略。
第二代关联分析策略将关联分析作为疾病风险权重,借助于已知的通路、网络、互作、功能等知识进行位点和基因层面之外的更高层次的信息发现。
这样的策略坚持疾病基因层面的发现,获得的结果还能够从细胞过程和机理的角度来解释疾病的发生,相比原有的方法,有着不言而喻的优势。
实验内容SNP相关的集成软件工具ImportantToolsinSNPStudies,一、Haploview识别TagSNP及推断单体型二、Plink软件包与基因互作三、基因组范围关联研究软件包SNPtest四、连锁分析和数量性状分析工具Merlin,附:
本章讲授可能用到的素材,数据库部分,HAPMAP数据的SNP距离,HAPMAP数据的频率分布,群体SNP分布异质性,从单体型到TagSNP,dbGAP中的数据资源,遗传定位部分,复杂疾病与SNP关系,关联研究基本原理,关联分析的结果特点,基因组范围关联研究流程,关联分析进行风险SNP定位(前列腺癌),精确定位研究策略,精确定位方法获得高显著SNP,基因组范围关联研究的可视化,随机扰动进行结果校正,关联结果发现SNP影响甘油三酯酸结构,SNP与转录异构,microRNA靶位点多态作用,SNP影响蛋白质功能,数量遗传学部分,数量性状分析的基本流程,线性回归方法研究数量性状定位,系统遗传学的基本原理,人类多态与染色体异常,从QTL到网络到疾病,遗传变异影响表型,酵母的eQTL研究,eQTL的生物学机理,基因组范围eQTL研究,样本数量对QTL影响,系统遗传学部分,微卫星的群体异质性,删除多态示意,删除多态与老年斑,适应性拷贝数变化与表型形成,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学专业 生物 信息学 15