基因序列分析word版.docx
- 文档编号:15717084
- 上传时间:2023-07-07
- 格式:DOCX
- 页数:30
- 大小:924.27KB
基因序列分析word版.docx
《基因序列分析word版.docx》由会员分享,可在线阅读,更多相关《基因序列分析word版.docx(30页珍藏版)》请在冰点文库上搜索。
基因序列分析word版
南开大学数学院“学而思”杯数学建模比赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
A题:
基因序列分析
摘要
本文通过对比HIV病毒基因序列,找出不同阶段的DNA基因序列的异同,进而分析基因位点的相关性,从而对比找出HIV病毒基因序列中较为重要的位点,为HIV病毒研究提供更多的研究方法与思路。
针对问题一:
我们利用点矩阵分析及统计各碱基含量的百分比的方法,对比两文件中具有相同序列名的基因序列及具有不同序列名的基因序列,找出两者的异同,得出结论。
两者的相似性表现在:
同名序列具有子序列关系,不同名序列具有相当的相似性,各种碱基的含量具有稳定性。
两者的不同点表现在:
基因规模有很大差异,不同名序列出现了具有突变特点的基因序列差异。
针对问题二:
我们首先利用DNAwalk法对HIV病毒基因序列位点进行分析,在分析的过程中发现由于基因和基因组序列中存在着高度的不均一性,即不同位置的碱基密度存在着很大的差异,因而DNAwalk法不太适合基因序列的分析,转而使用DFA模型对HIV基因的相关性进行分析和度量,得出了与DNAwalk模型相同的结论。
针对问题三:
在前两问的分析基础上,结合前两问的分析结果及HIV病毒高度变异性的特点,我们得出重要的基因位点应满足下列条件:
1、该基因位点位于Ⅱ基因序列,2、该基因位点所在序列的序列名应不同于Ⅰ中的序列名,3、该基因位点在问题二的分析中具有较高的相关性。
关键字:
矩阵分析DNAwalkDFA模型
问题重述
人类免疫缺陷病毒(HumanImmunodeficiencyVirus,HIV),简称艾滋病病毒,会造成人类免疫系统的缺陷,导致艾滋病(AIDS).HIV基因组翻译成蛋白的过程相对复杂,它会重复交叉使用某些基因片段。
病毒序列在进化和传播的过程中主要是envelope基因变化很快。
详细描述可见HIV的生活史。
由于现有的抗艾滋病病毒药对HIV无法根治,因此就将“责任”归咎高变异性.目前,很多的HIV序列已经被测定出来,附件给出了一些HIV的序列.我们试图通过对HIV序列的分析来断定这些序列上哪些位置比较重要,从而给艾滋病的研究一些帮助.例如,某些位置上的突变可能会影响到HIV的传播机制,如果我们瞄准这些位置设计药物,可能会对艾滋病的传播起到抑制作用.
HIV基因组序列大约长10k,HIV1_GENOME_DNA.fasta包含了1400余条基因组的序列,因为在序列突变的过程中,有一些核酸会消失,这些消失的核酸在文件中使用”-“来表示。
表示此处发生了一次删除突变。
也就是说,文件中所有序列都是”对齐”的.这样,我们可以知道这些序列中某一个特定位点上核酸的分布情况.另外,HIV基因组中包含了若干个编码蛋白质的基因,编码后的蛋白质可以行使病毒传播,致病等功能。
HIV1_ENV_DNA.fasta是其中一个编码蛋白质基因的序列,HIV1_ENV_PRO.fasta是编码后的蛋白序列。
它们同样是已经比对好的。
基于以上说明,我们来分析如下问题:
(1)对于HIV1_ENV和HIV_GENOME的DNA序列,构造数学方法对序列的位点进行分析,指出这两者之间的异同。
(2)HIV序列位点之间或者某些位点之间是否存在相关性?
如果存在,那么如何去度量这种相关性?
(3)对这些序列进行进一步的分析,找到你认为的HIV中较为重要的位点,并说明这些位点为什么重要。
知识背景
本文通过对HIV病毒的基因信息进行分析,从而得出HIV病毒基因中比较重要的位点,由于本问题专业性较强,所以我们将先对其中相关知识做出阐述:
1、名词解释:
基因组:
Genome,生物所携带的遗传信息的总和,即单倍体细胞中包括编码序列和非编码序列在内的全部DNA分子。
基因位点:
基因在染色体上占有的特定位置。
染色体:
由脱氧核糖核苷酸、蛋白质和少量核糖核酸组成的线状或棒状物,是生物主要遗传物质的载体。
因是细胞中可被碱性染料着色的物质而得名。
核糖体:
结合着辅助蛋白质因子的多个核糖体RNA(rRNA)亚基组成的细胞器。
碱基:
指嘌呤和嘧啶的衍生物,是核酸、核苷、核苷酸的成分。
2、一般细胞遗传信息传递相关原理
DNA转录成RNA,RNA再被翻译成蛋白质执行相应的功能。
DNA碱基的序列决定了蛋白质的结构,但DNA并非直接翻译成蛋白质,基因组DNA先通过转录生成信使RNA(mRNA),单链的mRNA随后将离开细胞核,指导蛋白质的合成。
这一过程称为翻译,由核糖体负责完成。
构成蛋白质的20种氨基酸通过转运RNA(tRNA)的作用到达核糖体,在核糖体的作用下,mRNA分子的核苷酸序列被翻译成相应的氨基酸,形成肽键。
一条DNA链经过一个被称为转录的复制过程,合成前体RNA转录本,除了将胸腺嘧啶(T)替换为尿嘧啶(U)。
这条RNA是与DNA编码链完全等同的。
然后,RNA上的非编码部分(内含子)被称为剪接的过程切除。
进而通过5’端加帽和3’端加尾作用被修饰,生成信使RNA(mRNA),mRNA被转移到细胞质中,在这里它将被核糖体翻译成蛋白质。
3、关于逆转录病毒
逆转录病毒的遗传信息不是存录在脱氧核糖核酸(DNA)上,而是存录在核糖核酸(RNA)上。
在感染受害细胞时,逆转录病毒首先将RNA逆转录为DNA,然后将这段逆转录基因插入到细胞基因中。
由细胞的转录机构转换为病毒的蛋白质和RNA。
逆转录病毒通常携带着病毒特异性的逆转录酶,这种酶可以将RNA逆转录合成为DNA。
4、HIV遗传信息传递原理
HIV病毒是一种逆转录病毒,因此HIV病毒的RNA要先经过逆转录的过程合成对应的DNA,这个过程是有序的高度复杂的过程。
但是HIV病毒的逆转录过程并不像DNA转录成RNA那样忠于原有信息,而是带有较高的突变机率,也就是说逆转录出的DNA所携带的遗传信息较原来的病毒发生了一定的变化。
HIV外层是类脂为主的包膜,包膜上镶嵌着许多糖蛋白。
当它进入人体后,其外膜上的糖蛋白可专门识别T淋巴细胞表面的受体并与之结合。
HIV基因组进入T淋巴细胞,蛋白质衣壳遭受酶解。
在逆转录酶的作用下,以HIV的RNA为膜板,一条与RNA互补的DNA单链被合成。
新DNA又成为另一条互补DNA链的合成膜板,如此便产生互补的双链DNA。
该双链DNA片断进入细胞核,与宿主细胞的染色体基因组整合在一起,成为前病毒RNA,感染进入潜伏期。
当被感染的细胞激活时,前病毒DNA便开始转录生成新的RNA片断,同时合成外壳蛋白等。
在宿主细胞中,新合成的RNA、逆转录酶即蛋白质等有装配成更多的病毒颗粒,它们以出芽的方式从宿主细胞中释放出来,又去攻击其他的T淋巴细胞。
符号说明
1、Ⅰ(B.FR.83.HXB2_LAI_IIIB_BRU.K03455):
HIV1_GENOME_DNA文件中名为B.FR.83.HXB2_LAI_IIIB_BRU.K03455的序列
2、Ⅱ(B.FR.83.HXB2_LAI_IIIB_BRU.K03455):
HIV1_ENV_DNA文件中名为B.FR.83.HXB2_LAI_IIIB_BRU.K03455的序列
3、Ⅲ(B.FR.83.HXB2_LAI_IIIB_BRU.K03455):
HIV1_ENV_PRO.文件中名为B.FR.83.HXB2_LAI_IIIB_BRU.K03455的序列
4、Ⅰ:
HIV1_GENOME_DNA
5、Ⅱ:
HIV1_ENV_DNA
6、Ⅲ:
HIV1_ENV_PRO.
其余序列可类似表示。
模型分析
问题一:
由知识背景可以知道HIV病毒的高度变异性来自RNA的逆转录过程的较高的突变机率,而Ⅰ是1400余条基因组的序列,Ⅱ是一个编码蛋白质基因的序列,Ⅲ是Ⅱ编码后的蛋白序列。
同时,病毒的传播主要是由蛋白质完成的,因此只有编码蛋白质的序列才是有效的。
另一方面,可以观察到无论是Ⅰ或是Ⅱ中的序列名(例如:
B.FR.83.HXB2_LAI_IIIB_BRU.K03455)均是专业的序号,因此可认为是该序列的名称。
通过对比可以发现Ⅰ和Ⅱ中的序列名不尽相同,因此在此问题中,我们将通过对比具有相同序列名的基因序列及具有不同序列名的基因序列找出两者的异同。
问题二:
目前DNA序列相关性结构的全部特征的研究可以说是数学的,其研究也主要是指统计相关性,当且仅当两个事件的联合概率不等于各个事件的概率之积时,两事件才有统计相关性。
数学方向上的研究者将DNA序列看做一串符号,它的相关性结构可通过所有可能的碱基对相关函数或相应的功率谱刻划。
同时,我们可将DNA序列的变化视为符号序列的修改。
在基因和基因组序列中,存在着高度的不均一性,即各个位置的碱基分布存在着很大的差异。
通过基于熵的分割算法,可以将序列分割为较均一的子序列,即可对DNA序列中的这种不均一性进行定量的分析和研究。
我们将通过分析DNAwalk及DFA模型对HIV序列位点之间的相关性进行度量与分析。
问题三:
通过问题一和问题二的分析和研究,我们可以知道序列的相关性及Ⅰ和Ⅱ的对比结果,鉴于HIV病毒的高变异性,我们可以知道HIV病毒的致病基因应该是处于变异后的基因序列之中,因此我们的讨论重点在于Ⅱ不同于Ⅰ的序列,寻找其中相关性较高的位点,这些位点就可视为是比较重要的位点。
模型求解
问题一:
一、通过点矩阵分析两序列的异同。
本方法原理:
利用矩阵图法做图。
矩阵图法:
矩阵图法就是从多维问题的事件中,找出成对的因素,排列成矩阵图,然后根据矩阵图来分析问题,利用数学上矩阵的形式表示因素间的相互关系,从中探索问题所在并得出解决问题的设想。
方法:
将两条待比较的序列分别放在矩阵的两个轴上,一条在X轴上,从左到右,另一条在Y轴上,从下往上,如图1所示。
图1
当对应的行与列的序列字符匹配时,则在矩阵对应的位置做出“点”标记。
逐个比较所有的字符对,最终形成点矩阵。
可能存在的几种情况:
1、如果两条序列存在相同的子串,则对于每一个相同的子串对,有一条与对角线平行的由标记点所组成的斜线,如图2中的斜线代表具有相同的子串“ATCC”:
图2
2、两条互为反向的序列,则在反对角线方向上有标记点组成的斜线,如图3所示:
图3
3、对于矩阵标记图中非重叠的与对角线平行斜线,可以组合起来,形成两条序列的一种比对。
在两条子序列的中间可以插入符号“-”,表示插入空位字符。
在这种对比之下分析两条序列的相似性,如图4所示。
找两条序列的最佳比对(对应位置等同字符最多),实际上就是在矩阵标记图中找非重叠平行斜线最长的组合。
图4
下面我们用这种方法对问题一进行分析:
由于序列中的碱基数目过多,我们将序列用BioEdit软件翻译成氨基酸序列再进行对比。
为了证明利用矩阵图法对氨基酸序列依然有效,我们将同一序列与自身进行对比,得到如下图形(图5):
图5
由此可看出矩阵图法对氨基酸序列依然有效,且两序列进行比较后出现如图5的斜线,则表示两序列有相同的部分。
在此基础上我们对以下问题进行研究:
1、对在Ⅰ和Ⅱ中序列名相同的基因序列进行比对:
图6
2、
对在Ⅰ和Ⅱ中序列名不相同的基因序列进行比对:
图7
下面我们将图6,图7细化比较:
图6-A
图7-A
分别将三个部分进行对比:
图5-1表示与自身比对的第一部分图像,以此类推;
图6-1表示同名序列对比的第一部分图像,以此类推;
图7-1表示异名序列对比的第一部分图像,以此类推;
第一部分:
图5-1图6-1图7-1
第二部分:
图5-2图6-2图7-2
第三部分:
图5-3图6-3图7-3
通过图像的直观分析,我们可以认为Ⅱ与Ⅰ的同名序列是Ⅰ的一个连续的子序列;而不同名的序列Ⅱ不为Ⅰ的一个连续的子列。
由此我们可以认为Ⅰ与Ⅱ的相同点在于Ⅱ与Ⅰ的同名序列具有子序列的关系。
而Ⅰ与Ⅱ也具有大量的不同名的序列,从图像的比对中我们可以发现即使是不同名的序列,他们的序列也具有相当的相似性,可以认为是由于HIV的高度变异性造成的。
与此同时,Ⅰ中的基因序列规模远远大于Ⅱ,表明Ⅰ中DNA序列中的碱基并不完全编码蛋白质,有基因的缺失突变,这与实际理论符合,说明这样的分析具有一定的合理性。
在以上分析的基础上,我们统计出Ⅰ与Ⅱ相同的序列共有1281条,Ⅰ特有的序列共有215条,Ⅱ特有的序列共有1050条。
二、通过各种碱基含量分析两序列的异同。
DNA序列是由各种碱基(A、T、G、C)构成的,我们将通过统计Ⅰ与Ⅱ中同名及异名的基因序列的各种碱基的含量的百分比分析两序列的异同。
将上述方法中找到的三类序列(同名序列、Ⅰ特有序列、Ⅱ特有序列)分别进行编号,从三类序列中分别随机抽取5组数据,使用BioEdit软件可统计得如下数据:
序列名称
所属
文件
腺嘌呤(A)%
胞嘧啶
(C)%
鸟嘌呤
(G)%
胸腺嘧啶(T)%
A1.KE.97.ML752.AY322193
Ⅱ
34.51
17.67
23.38
24.44
A1.KE.97.ML752.AY322193
Ⅰ
35.69
17.79
24.23
22.29
B.JP.04.DR6175.AB480694
Ⅰ
35.15
18.11
24.39
22.35
BC.CN.98.YNRL9828.AY967805
Ⅱ
34.38
16.94
24.34
24.34
B.US.02.L861P.FJ469748
Ⅱ
34.35
17.56
23.34
24.75
B.US.02.L861P.FJ469748
Ⅰ
36.19
17.79
23.84
22.18
C.ZM.03.ZM246F_flA10.FJ496186
Ⅰ
36.03
17.32
24.24
22.41
B.US.04.UNC5283_17.EF593273
Ⅱ
35.11
16.71
23.50
24.69
C.ZA.02.02ZAPS001MB1.DQ275648
Ⅱ
35.55
16.69
23.21
24.56
C.ZA.02.02ZAPS001MB1.DQ275648
Ⅰ
36.22
17.47
24.20
22.11
01_AE.VN.98.98VNND15.FJ185235
Ⅰ
36.61
17.24
23.84
22.31
B.GB.96.875DEN49.AJ535612
Ⅱ
35.09
17.31
23.29
24.31
01_AE.TH.02.OUR769I.AY358062
Ⅱ
34.62
16.78
23.78
24.83
01_AE.TH.02.OUR769I.AY358062
Ⅰ
36.85
16.90
23.84
22.41
A1B.CY.05.CY107.FJ388926
Ⅰ
36.56
17.74
23.38
22.31
B.US.04.CAAN.AY835452
Ⅱ
34.35
17.39
23.99
24.27
BCF1.AR.04.04AR160677.DQ383754
Ⅱ
35.17
17.58
23.09
24.16
BCF1.AR.04.04AR160677.DQ383754
Ⅰ
36.36
18.22
23.60
21.81
01_AE.TH.93.93TH9021.AF164485
Ⅰ
35.62
17.80
24.27
22.31
A.KE.00.00KE_KNH1207.AY736815
Ⅱ
34.54
17.54
23.61
24.31
由上述数据可以看出无论是同名还是异名的序列,无论是Ⅰ序列或Ⅱ序列,序列的各种碱基的含量的百分比基本稳定,差别不大。
因此可认为Ⅰ与Ⅱ在各种碱基的含量上具有相似性。
综上所述,Ⅰ与Ⅱ的相似性表现在:
A.Ⅱ是Ⅰ中同名序列的子序列,
B.Ⅰ与Ⅱ中不同名序列具有相当的相似性,
C.Ⅰ与Ⅱ在各种碱基的含量上具有相似性。
Ⅰ与Ⅱ的不同点表现在:
A.Ⅰ与Ⅱ的基因规模有很大差异,
B.Ⅰ与Ⅱ中不同名序列出现了具有突变特点的基因序列差异
问题二:
DNAwalk是研究DNA随机性质的有用模型,其过程如下:
首先将DNA序列转化成二进制序列(例如:
G或C变成1,A或T变成0),然后二进制序列转化成步,1表示向上一步,0表示向下一步。
对于无关的步,每一步的和与上一步是无关的,而存在相关性的步,每一步的方向依赖于步的历史,即对已走过的步存在记忆功能。
一维DNAwalk规则如下:
在DNA链上的i位置处,如果是嘧啶,则向上走一步,否则如果出现的是嘌呤,则向下走一步,我们的问题是这样的DNAwalk是否仅仅显示短程相关性(类似n阶马尔科夫链)或是长程相关性(像临界现象和其它标度不变的分形现象)。
DNAwalk提供了每个基因的图形表示方法,碱基间的相关程度可以直接被看到。
DNAwalk还提供了基因序列和基因组序列的新的图表示方法,碱基间的相关性可以通过图直接看出。
通过计算
步后的净位移y(
)可以对相关性进行量化。
类似于分数布朗运动,任何步的一个重要统计特征是平均位移的均方根
,
定义为:
其中
定义为:
,上横线指在序列中对所有的
求平均。
计算步骤如下:
(a)设定一个固定距离
;
(b)从
=1开始移动序列的初始点,一直到序列的末端;
(c)对于每一个
计算
;
(d)对所有的
进行平均,获得
。
二进制序列自相关函数定义:
的结果分别表示三种情况:
(a)如果碱基序列是完全随机的,则
不为0时,
为0,档
为0时,
=1,此时有
;
(b)如果存在特征尺度为R的短程相关性,如马尔科夫链的情形,则
,在有限的尺度内,函数
明显偏离了
,尽管如此,
仍然渐近的趋向于
,即和纯随机的情况是相同的;
(c)如果没有特征尺度,或特征尺度为无穷,则由于
的标度性,函数将不再是指数的而更接近于幂指数,则
也被描述为幂函数,即
此时,
。
由于其他因素的影响,
当然不是严格的幂函数,但在一定的尺度内,是较好的近似。
在本问题中我们选取了两组数据,进行了DNAwalk的作图及编程序计算,可得:
颜色较浅的线为Ⅱ中A.CM.00.NYU1423.DQ313248序列的DNAwalk
颜色较深的线为Ⅱ中B.FR.83.HXB2_LAI_IIIB_BRU.K03455序列的DNAwalk
但由于基因和基因组序列中存在着高度的不均一性,即不同位置的碱基密度存在着很大的差异,所以DNA序列是高度非平稳的序列,因而DNAwalk的模型不适于研究基因序列。
为了充分考虑DNA序列的不均一性的影响,Pengetal.(1994)在DNA步的基础上提出了DFA模型。
DFA模型分如下几步:
1、将整个长度为N的序列分成
个不重叠的窗口,每个窗口含有
个核苷酸。
定义窗口的局部趋势,即对窗口内DNAwalk的位移点,即
,进行最小二乘的直线拟合,相应拟合点用
表示。
2、定义趋势步(detrendedwalk)
。
首先计算每个窗口
的方差,然后计算所有窗口方差的平均值,记为
。
实际上有公式
。
DNAwalk模型和DFA模型有相同的结论,如果在碱基序列间仅仅存在短程相关性或是无关,则
,如果存在长程幂律相关性,则
,其中
。
DFA模型不论从理论上还是从大量的实验中都比DNA
walk模型有更优越的性能和更好的结果,因而得到更广泛的应用。
图4给出了A.aeolicus编码程序列的DFA模型的说明和
(图中用
表示)的直线拟合图。
问题三:
在前两问分析的基础上,我们认为:
在Ⅰ与Ⅱ具有不同序列名且具有高度相关性的位点是重要的位点。
理由如下:
首先,HIV病毒具有高度变异性,因而HIV的疫苗研制陷入僵局。
通过问题一的比对,我们发现HIV编码蛋白质的基因有几乎一半与DNA序列组的基因序列具有子序列关系,这可以理解为在基因的复制过程中,这一部分的基因保留了下来,没有发生变异。
从另一个角度我们可以知道,病毒的传播与繁殖是由基因编码的蛋白质实现的,而不是基因本身的实现,因此我们认为比较重要的基因位点应该位于Ⅱ中序列名不同于Ⅰ中序列名的基因序列中。
其次,在第二问中我们分析了基因序列的相关性,DNA序列相关性结构的研究方向是揭示基因和基因组的结构,揭示更多的生物意义。
事实上,DNA序列中存在着不同尺度的相关性,因此我们用相关性的程度来衡量基因位点的重要性程度是合理的。
综合上述两点,我们认为在重要的基因位点应满足下列条件:
1、该基因位点位于Ⅱ基因序列,
2、该基因位点所在序列的序列名应不同于Ⅰ中的序列名,
3、该基因位点在问题二的分析中具有较高的相关性。
优缺点分析
优点:
通过BioEdit软件将数据导入并挑出序列号相同的DNA序列,然后将这些序列编号(1—1281),再从这些数据中用Matlab软件生成随机数作为研究对象。
通过这一筛选我们可以将海量数据简单化,并且用生成随机数的方法可以克服人为挑选的片面性,让我们的模型更具有通用性。
解决问题一时,我们用较为简易方法—“矩阵作图法”(或“对角线作图”),我们能很直观的看出各序列的异同。
另外我们对各序列中的各种碱基的含量进行统计,也能从另外一个角度更全面的思考这一问题。
解决问题二时,我们引入了DNAwalk,但在分析过程中发现DNAwalk并不十分适合基因序列的研究,于是又引入了DFA模型,更适合于DNA基因序列分析。
缺点:
我们的模型分析是从两个(Ⅰ与Ⅱ)DNA序列中挑选出序列号相同的DNA序列进行相似性比较以及比较各碱基(A、T、G、C)占整个基因序列的比例,而对于DNA基因组里和编码蛋白里特有的DNA序列我们只进行了碱基(A、T、G、C)占整个基因序列的比例统计,所得结论不具有普遍性。
同时我们的模型分析里数学理论体现不强,我们的数据统计主要是依靠BioEdit软件用“点矩阵”的数学方法来执行的。
同时我们虽然采取了选取随机数的方式来选取研究数据,但是毕竟基因序列式一个海量数据,我们这样选取数据的方式是否合理还有待证明。
进一步的说,这个问题是一个专业性较强的问题,如果有更加专业的相关知识的支持,我们将可以对模型的分析做进一步的改进,以得到更好的结果。
参考文献
[1]邓宏魁,病毒:
吞噬健康的黑客,少年儿童出版社,2006
[2]张自立、彭永康,现代生命科学发展,科学出版社,2007
[3]杜荣骞,生物统计学,高等教育出版社,2009
[4]生物信息学:
[5]刘劲松,DNA序列相关性结构研究综述及人类基因组序列相关性分析,北京工业大学硕士学位论文
附录:
附录1:
MATLAB关于DNAwalk作图的相关程序:
symsxl;
xl='';%在‘’中输入需要作图的序
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因 序列 分析 word
![提示](https://static.bingdoc.com/images/bang_tan.gif)