大豆ANS基因的生物信息学分析.docx
- 文档编号:9959155
- 上传时间:2023-05-22
- 格式:DOCX
- 页数:23
- 大小:777.47KB
大豆ANS基因的生物信息学分析.docx
《大豆ANS基因的生物信息学分析.docx》由会员分享,可在线阅读,更多相关《大豆ANS基因的生物信息学分析.docx(23页珍藏版)》请在冰点文库上搜索。
大豆ANS基因的生物信息学分析
大豆ANS基因的生物信息学分析
摘要:
花青素(Anthocyanidin),又称花色素,存在于植物细胞的液泡中,可由叶绿素转化而来,花青素合成酶(Anthocyanidinsynthase,ANS)是催化无色花色素转变成花青素的关键酶,对大豆ANS基因进行分析,有助于研究植物叶色、果色和花色的形成机理,同时为深入研究大豆ANS基因家族的功能和结构特征提供依据。
利用相关的生物信息学软件分析了大豆ANS基因编码蛋白的氨基酸组成、结构域、保守区段、二级结构等蛋白质性质,同时对其疏水性/亲水性、跨膜区段、信号肽等进行了预测和分析,并与其它物种的LODX/ANS基因进行同源性比较和进化分析。
结果表明,其开放阅读框为1059bp,编码352个氨基酸残基,相对分子质量为39.8kDa,属于亲水性蛋白质;不存在信号肽,说明ANS可能不是分泌蛋白;糖基化和磷酸化预测结果说明,蛋白质存在一个N-糖基化位点和10个磷酸化位点;二级结构主要由α螺旋和无规则卷曲构成,不存在β折叠,表明蛋白质结构稳定性低。
关键词:
大豆;花青素合成酶;生物信息学分析
大豆(Glycinemax)属于蝶形花科,又叫青仁乌豆、黄豆、泥豆、马料豆等,是中国重要粮食作物之一,现已知约有1000个栽培品种。
大豆是豆类中营养价值最高的品种,含有丰富的不饱和脂肪酸,多种微量元素、维生素及优质蛋白质,具有增强机体免疫力、预防血管硬化等作用。
花青素是类黄酮物质的一种,广泛存在于自然界中,是植物主要的水溶性色素之一。
花青素作为一种天然食用色素,安全、无毒、资源丰富,而且具有一定营养和药理作用[1],如强抗氧化,即加强清除自由基能力,以及能预防心血管疾病、抗肿瘤、抗突变和辐射、调节血小板活性、防血小板凝结、免疫调节活性等[2],在食品、化妆、医药方面有着巨大应用潜力,因此对花青素相关方面的研究一直是近年来的热点。
花青素是经苯丙烷代谢途径和类黄酮生物合成途径合成的(图1)。
花青素合成酶(AnthocyanidinSynthase,ANS)是花青素合成通路末端的关键酶,催化从无色花色素到有色花色素的转变[3],属于氧化戊二酸依赖性加氧酶家族。
生物信息学作为一门综合信息技术、计算机科学和数学的理论方法来研究生物信息的综合交叉学科,是当今生命自然科学的重大前沿领域之一,也是21世纪自然科学的核心领域之一。
它通过对基因组DNA序列进行信息分析,也就是对基因组结构和功能进行研究,模拟和预测蛋白质的空间结构,以及分析蛋白质的性质等,从而为寻找或发现新基因提供理论依据[4]。
本文运用生物信息学的方法,对大豆ANS基因氨基酸序列及所编码蛋白质的组成、理化特性、结构特点等进行预测和分析,同时从NCBI上获取已经注册的大豆ANS家族的核酸序列和LDOX核酸序列,结合MEGA3.1软件对该蛋白家族基因构建进化树,从而为深入研究ANS基因家族的功能和结构特征提供依据,同时有助于研究植物叶色、果色和花色的形成机理。
图1花青素生物合成途径(HoltonandCornish1995)
1材料与方法
1.1实验材料
根据提供的大豆ANS基因的核苷酸序列,通过在NCBI(NationalCenterforBiotechnologyInformation)核酸及蛋白质数据库中检索相关基因,得到序列登录号(表1),获得已经注册的大豆ANS家族以及其它物种的ANS/LDOX的核苷酸cDNA序列及其对应的蛋白质序列。
表1材料名称及ANS序列登录号
名称
物种
序列登录号
Glycinemax
大豆
BT095278.1
Glycinemax
大豆
AY382830.1
Glycinemax
大豆
AY382829.1
Glycinemax
大豆
EU334548.1
Glycinemax
大豆
NM_001253955
Glycinemax
大豆
BT094457.1
Glycinemax
大豆
AY382828.1
Dimocarpuslongan
龙眼
FJ479616.1
Clitoriaternatea
蝶豆
AB185902.1
Fragariaxananassa
草莓
JX134095.1
Fragariaxananassa
草莓
AY695817.1
1.2实验方法
依据http:
//www.ncbi.nlm.nih.gov/、http:
//www.cbs.dtu.dk/、http:
//www.expasy.org/等网站提供的各类生物信息学软件进行在线分析。
软件具体使用情况如下:
1、通过软件primer5.0获得相应的氨基酸序列,其中大豆ANS基因开放阅读框(OpenReadingFrame,ORF)的查找和翻译在NCBI-ORFFinder(http:
//www.ncbi.nlm.nih.gov/gorf/gorf.html)进行;序列的碱基数目以及G+C值等信息通过DNAStar软件获得;
2、通过DNAMan5.2.2软件获得大豆ANS基因的编码区全长序列及其推导的氨基酸序列;
3、ANS核酸及氨基酸序列的组成成分、理化性质(等电点、疏水性等)利用ProtParam(http:
//www.expasy.ch/tools/protparam.html)在线工具进行分析;
4、通过Protfun分析软件(http:
//www.cbs.dtu.dk/services/ProtFun/)和Protscale(http:
//expasy.org/tools/protscale.html)预测分析蛋白质功能和疏水性/亲水性;
5、利用CBS网站TMHMMServerv.2.0(http:
//www.cbs.dtu.dk/services/TMHMM/)在线工具对氨基酸序列进行跨膜分析预测;
6、利用ClustalX1.83和GeneDoc软件进行多序列基因同源性比对,同时使用MEGA3.1软件并结合Neighbor-Joining的方法进行进化分析;
7、蛋白质二级、三级结构的预测分别利用SOPMA(http:
//npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?
page=/NPSA/npsa_sopma.html)、PDBeTools(http:
//www.ebi.ac.uk/pdbe/)在线工具完成;
8、用NCBI的ConservedDomains程序(http:
//www.ncb.inlm.nih.gov/Structure/cdd/wrpsb.cgi)预测蛋白质的保守区;
9、通过COILS(http:
//www.ch.embnet.org/software/COILS_form.html)对蛋白质卷曲螺旋进行分析;
10、氨基酸序列的糖基化预测通过NetNGlyc1.0(http:
//www.cbs.dtu.dk/services/NetNGlyc/);磷酸化预测利用NetPhos2.0Server(http:
//www.cbs.dtu.dk/services/NetPhos/);
11、利用TargetP1.1Server(http:
//www.cbs.dtu.dk/services/TargetP/)对蛋白质进行亚细胞定位。
2结果和分析
2.1大豆ANS核酸序列特征分析
如图2所示,大豆ANS基因全长1320bp,开放阅读框长度为1059bp,编码352个氨基酸,分子量为39879,TGA为终止密码子,故不编码蛋白质。
通过DNAStar软件分析得出,序列G+C值为50.33%,其中碱基A为294个,碱基C为222个,碱基G为311个,碱基T为232个。
通过NCBI网站的ORFFinder工具分析结果表明,该基因可能包括6个开放阅读框(OpenReadingFrame,ORF),分别位于1-1058bp、751-1011bp、344-529bp、133-255bp、756-857bp和959-1058bp处。
图2大豆ANS基因序列及其编码的氨基酸序列
2.2大豆ANS理化性质
用ProtParam在线分析软件对花青素合成酶蛋白的理化性质进行预测,推测该蛋白的分子式为C1084H2851N477O525S10,总原子数为5667,分子量为39879,总氨基酸个数为352,序列的碱性氨基酸(K、R)、酸性氨基酸(D、E)、疏水性氨基酸(A、I、L、F、W、V)和极性氨基酸(N、C、Q、S、T、Y)含量分别为47、56、122和65个,疏水性氨基酸的含量是极性氨基酸的两倍。
同时根据理化指标(表3),得知总平均亲水性为-0.398。
在该基因编码的氨基酸(表1)中,Glu(E)和Leu(L)含量较高,分别占12.2%和11.4%;Cys(C)、Met(M)、Trp(W)的含量均为1.4%;不含Pyl(O)、Sec(U)。
总的带正电残基(Asp+Glu)为56,负电残基(Arg+Lys)为47,理论等电点pI为5.71,为偏酸性可溶性蛋白。
在280nm下的吸光值为1.068,不稳定系数为51.68(>40),表明该蛋白质不稳定。
表2ANS基因编码氨基酸的组成
氨基酸
简写
数目
氨基酸百分率
Ala
(A)
20
5.7%
Arg
(R)
16
4.5%
Asn
(N)
10
2.8%
Asp
(D)
13
3.7%
Cys
(C)
5
1.4%
Gln
(Q)
11
3.1%
Glu
(E)
43
12.2%
Gly
(G)
26
7.4%
His
(H)
10
2.8%
Ile
(I)
22
6.2%
Leu
(L)
40
11.4%
Lys
(K)
31
8.8%
Met
(M)
5
1.4%
Phe
(F)
13
3.7%
Pro
(P)
21
6.0%
Ser
(S)
17
4.8%
Thr
(T)
12
3.4%
Trp
(W)
5
1.4%
Tyr
(Y)
10
2.8%
Val
(V)
22
6.2%
Pyl
(O)
0
0.0%
Sec
(U)
0
0.0%
(B)
0
0.0%
(Z)
0
0.0%
(X)
0
0.0%
表3相关理化指标
理化指标
氨基酸数
分子量
等电点PI
不稳定系数
脂肪系数
总平均亲水性
数值
352
39879
5.71
51.68
92.50
-0.398
2.3大豆ANS基因序列结构的预测和分析
2.3.1基因氨基酸结构功能域的预测与保守区段分析
利用ScanProsite(http:
//www.expasy.ch/tools/scanprosite/)对大豆ANS进行结构功能域的在线预测。
结果表明(图3),多肽链仅具有1个功能域,在第227位至第236位的10个氨基酸残基含有20G-Fe(Ⅱ)加氧酶家族的功能域,行使加氧功能;第298位由2-Oxoglutarate作为连接位点。
同时用NCBI的ConservedDomains程序预测蛋白质的保守区。
如图4所示,20G-Fe(Ⅱ)加氧酶家族的结构域是高度保守的N-末端区域。
图3ANS基因氨基酸结构功能域预测
图4大豆ANS保守区段分析
2.3.2信号肽预测
利用SignalP3.0Server(http:
//www.cbs.dtu.dk/services/SignalP-3.0/)在线预测工具对ANS基因编码的相应蛋白质进行信号肽预测。
结果显示(图5),蛋白质不存在信号肽结构。
最大的分裂位点在18(C)和19(I)位氨基酸之间有分裂位点。
最大C值在第27个氨基酸剪切的值是0.122,剪切的可能性是0.32,无信号肽存在的可能性;最大Y值(综合剪切位点的分值)在第27个氨基酸的值是0.039,剪切的可能性是0.33,无信号肽存在的可能性;最大S值(信号肽的分值)在第1个氨基酸的值是0.171,其可能性是0.87,信号肽有存在的可能;平均S值在第1-26个氨基酸之间的值是0.039,可能性是0.48,无信号肽存在的可能。
以上分析说明大豆ANS基因的蛋白可能不是分泌性蛋白。
C值:
原始剪切位点的分值;S值:
信号肽的分值;Y值:
综合剪切位点的分值。
图5大豆ANS蛋白质的信号肽预测
2.3.3跨膜预测
利用HMMTOP(http:
//www.enzim.hu/hmmtop/)在线工具。
如图6所示,预测蛋白质大豆ANS无明显跨膜结构,可能为非跨膜蛋白,所有的蛋白质均在膜内,所以大豆ANS编码的蛋白质属于胞内蛋白。
组成蛋白质的氨基酸N端在膜内的概率为0.01161。
结构总熵为17.0163,说明该蛋白质结构稳定性较差。
图6大豆ANS跨膜结构的分析
2.3.4疏水性/亲水性的预测和分析
自然界中存在的20种常见的氨基酸都具有疏水性,它们的排列顺序和侧链基团间相互作用决定了蛋白质的三维空间结构。
因此研究对蛋白的疏水性∕亲水性进行预测和分析可以为蛋白高级结构的预测提供理论参考。
依据氨基酸分值越低亲水性越强,分值越高疏水性越强的规律[5],用ProtScale在线工具分析对大豆ANS氨基酸序列进行疏水性/亲水性预测。
结果表明(图7),最低分值为‐2.756,是多肽链第112位Lys;最高分值为1.944,是第187位的Leu,即第112位的Lys亲水性最强,第187位的Leu疏水性最强。
用SOSUI(http:
//bp.nuap.nagoya-u.ac.jp/sosui/)在线分析软件对平均疏水值进行计算,得平均疏水值为-0.398,说明氨基酸为两性氨基酸(平均疏水性值介于-0.5-0.5主要为两性氨基酸)。
同时分值大于0的氨基酸数目明显低于分值小于0的氨基酸数目,亲水区域的面积大于疏水区域,由此根据分值分布推测,大豆ANS蛋白质属于亲水性蛋白。
图7大豆ANS基因亲水性/疏水性的预测图
表4ANS基因氨基酸序列疏水性/亲水性预测分值
名称
分值
名称
分值
Ala
1.8
Ile
4.5
Arg
-4.5
Leu
3.8
Asn
-3.5
Lys
-3.9
Asp
-3.5
Met
1.9
Cys
2.5
Phe
2.8
Gln
-3.5
Pro
-1.6
Glu
-3.5
Ser
-0.8
Gly
-0.4
Thr
-0.7
His
-3.2
Trp
-0.9
Val
4.2
Tyr
1.3
2.3.5蛋白质卷曲螺旋分析
通过COILS(http:
//www.ch.embnet.org/software/COILS_form.html)对蛋白质卷曲螺旋进行分析。
卷曲螺旋是控制蛋白质寡聚化的元件,也是一种很简单的三级结构[8]。
通过窗口14的搜索,ANS有两段序列有超过50%的可能性形成卷曲螺旋,由于在跨膜分析预测中得出ANS核苷酸序列不存在跨膜结构,因此卷曲螺旋结构可能存在于ANS的其他功能域(图8)。
图8大豆ANS氨基酸序列的卷曲螺旋分析
2.3.6基因的二级结构的预测
蛋白质分子的多肽链通常折叠和盘曲成比较稳定的空间结构,形成比较稳定的二级结构,进一步才能完成活性构象的构建,以完成特定的生命活动[6]。
通过在线分析软件SOPMA对ANS蛋白序列进行二级结构预测和分析。
结果表明(图9,图10,图11),该蛋白氨基酸序列主要由α螺旋和不规则卷曲构成,且仅含有4种结构。
其中有119个氨基酸组成α螺旋,占氨基酸总数的33.81%;149个氨基酸组成无规则卷曲,占总数的42.33%;59个氨基酸组成扩展链,占总数的16.76%;β转角由25个氨基酸组成,占总数的7.10%。
一般认为,α螺旋和β折叠对维持蛋白质分子空间结构的相对稳定性很重要,而在该蛋白质中无规则卷曲所占的比例较大,且不含β折叠,说明这种蛋白质的稳定性较差。
蓝色的h表示α螺旋,红色的e表示伸展片段,绿色的t表示β转角,黄色的c表示无规则卷曲
图9蛋白质二级结构对应序列图
竖线由长至短分别表示α螺旋、β转角、不规则卷曲
图10蛋白质柱状显示图
蓝色表示α螺旋,绿色表示β转角,紫色表示无规则卷曲
图11蛋白质线性变化曲线图
2.3.7基因三级结构的预测
三级结构是指经充分折叠的、已具生物活性、能执行生物催化功能的一个完整的球蛋白的三维立体结构,即天然构象[9]。
通过PDBeTools(http:
//www.ebi.ac.uk/pdbe/)对蛋白质三级结构进行在线预测和分析,得到了蛋白质的三维结构预测图。
结果表明(图12),大豆ANS基因的三维结构主要由α螺旋和无规则卷曲构成,与其二级结构预测结果相同。
图12大豆ANS基因三级结构分析
2.3.8氨基酸序列的糖基化和磷酸化预测
利用在线分析软件NetNGlyc1.0(http:
//www.cbs.dtu.dk/services/NetNGlyc/)对ANS氨基酸序列的糖基化位点进行预测,结果表明(图13)ANS氨基酸序列存在一个N-糖基化位点:
132-NASG,其糖基化预测值是0.6194。
蛋白质的磷酸化是最普遍、最重要的一种蛋白翻译后修饰方式。
一般来说,多肽链中的氨基酸潜在的磷酸化位点越多,发挥更多功能的可能性就越大[7]。
通过NetPhos2.0Server(http:
//www.cbs.dtu.dk/services/NetPhos/)进行ANS氨基酸序列的磷酸化位点预测,结果(图14)为ANS氨基酸序列中有6个Ser和4个Tyr磷酸化位点,不具有Thr位点。
这些位点零散地分布于多肽链中。
图13大豆ANS氨基酸序列的糖基化位点分析
图14大豆ANS氨基酸序列的磷酸化位点预测
2.3.9亚细胞定位分析
蛋白质的亚细胞定位预测与其功能有关,利用TargetP1.1Server(http:
//www.cbs.dtu.dk/services/TargetP/)进行亚细胞定位分析。
结果表明(图15),大豆ANS蛋白质定位在叶绿体上的比率为11.9%,定位在线粒体的比率为19.7%,而定位在其他位置上的比率高达70.5%,说明了该种蛋白质不是分泌蛋白。
图15大豆ANS编码蛋白质亚细胞定位预测结果
2.4大豆ANS基因与其他物种ANS/LDOX基因的多序列比对
使用ClustalX1.83软件对研究所用的11条序列进行排序和对齐,再利用MEGA3.1软件获得变异位点(V)、单核苷酸位点(S)及信息位点(Pi)。
在1152个位点中,其中变异位点共443个,单核苷酸位点为136个,信息位点为306个。
氨基酸比对结果如图16所示,同源性分析结果表明:
大豆ANS家族序列具有高度的保守性,大部分序列同源性高达95%,仅存在部分碱基替换现象。
其中,大豆ANS基因与蝶豆LDOX基因同源相似性为84%,与草莓、龙眼同源性最低,为76%左右。
同时将大豆ANS序列与其他序列对齐比对得出,这11个物种的序列存在碱基缺失现象,分别在+1bp有3个碱基的缺失,+11bp处有5个碱基的缺失,+145bp处有3个碱基的缺失。
龙眼ANS基因与其它10个基因的差异是最大的。
图16大豆ANS基因的核酸序列的比对图
2.5大豆ANS基因的进化分析
用MEGA3.1软件计算遗传距离,结果表明(表5),所选用的材料间的遗传距离为0.000-0.369。
蝶豆LDOX基因和龙眼ANS、草莓栽培种ANS和草莓ANS间的遗传距离均在0.335以上,说明蝶豆的LDOX与其余两个物种ANS基因间的同源性较低;草莓栽培种ANS和草莓ANS与大豆ANS家族基因间的遗传距离均在0.300以上,说明草莓的ANS基因与大豆ANS基因的同源性较低。
采用邻接法构建系统发育树,经1000次自举检测(图17),11种材料被明显分为两大类,大豆ANS基因家族和蝶豆LDOX基因聚在一个类群上,草莓、草莓栽培种ANS基因和龙眼ANS基因聚在另一个类群上。
用靴带(Bootstrap)自展法检验发育树,判断各分支处的可信度,除登录号为NM001253955.2和AY382828.1的大豆ANS基因外,其它物种的ANS/LDOX基因间的自展支持率均为100%。
表5ANS基因家族以及LDOX基因间的遗传距离
BT095278
AY382830
AY382829
EU334548
NM_001253955
BT094457
AY382828
AB185902
JX134095
AY695817
FJ479616
BT095278
AY382830
0.000
AY382829
0.002
0.002
EU334548
0.051
0.051
0.050
NM_001253955
0.051
0.051
0.050
0.000
BT094457
0.051
0.051
0.050
0.000
0.000
AY382828
0.046
0.046
0.047
0.021
0.021
0.021
AB185902
0.185
0.185
0.185
0.190
0.190
0.190
0.196
JX134095
0.308
0.307
0.307
0.324
0.324
0.324
0.332
0.364
AY695817
0.316
0.314
0.314
0.33
0.33
0.33
0.338
0.369
0.013
FJ479616
0.31
0.309
0.31
0.312
0.312
0.312
0.312
0.334
0.261
0.265
大豆ANS
大豆ANS
大豆ANS
大豆ANS
大豆ANS
大豆ANS2
大豆ANS3
蝶豆LDOX
龙眼ANS
草莓栽培种ANS
草莓ANS
图17基于基因序列构建的系统发育树
3小结和讨论
近年来,随着基因组和功能基因组研究的迅猛发展,生物信息学的理论和方法也取得巨大的进步,基于生物学实验数据和现代计算技术的生物信息学分析在植物学研究领域也得到了广泛应用[4]。
蛋白质是一种重要的生物大分子,是生命活动的重要承担者,因此对蛋白质结构和功能的预测是一个重要的问题。
本研究运用生物信息学分析技术,对已知的大豆ANS基因及其编码的蛋白质进行理化性质、跨膜区、疏水性/亲水性等方面的分析与研究,并作出相应预测,可以进一步为不同物种ANS结构和功能的研究等提供理论依据。
同时分析不同亲缘关系的物种间的ANS基因序列的相似性,从而为研究基因遗传多样性打下基础,有助于对ANS基因实现全方位的研究。
本次研究结果表明,大豆ANS基因编码的蛋白质属于非分泌型亲水性蛋白质,亲水性较高说明了花
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大豆 ANS 基因 生物 信息学 分析