书签分享收藏举报版权申诉 / 14

立即下载加入VIP,免费下载

当前位置：首页 > 自然科学 > 物理 > 最新版基于序列特征的固有无序蛋白结合位点的统计分析40本科毕业设计41.docx

最新版基于序列特征的固有无序蛋白结合位点的统计分析40本科毕业设计41.docx

文档编号：16408630
上传时间：2023-07-13
格式：DOCX
页数：14
大小：25.94KB

最新版基于序列特征的固有无序蛋白结合位点的统计分析40本科毕业设计41.docx

《最新版基于序列特征的固有无序蛋白结合位点的统计分析40本科毕业设计41.docx》由会员分享，可在线阅读，更多相关《最新版基于序列特征的固有无序蛋白结合位点的统计分析40本科毕业设计41.docx（14页珍藏版）》请在冰点文库上搜索。

最新版基于序列特征的固有无序蛋白结合位点的统计分析40本科毕业设计41.docx

最新版基于序列特征的固有无序蛋白结合位点的统计分析40本科毕业设计41

基于序列特征的固有无序蛋白结合位点的统计分析

xxx

（物理与电子信息学院，山东德州253023）

摘要本文以Disprot和BSDP数据库中的固有无序蛋白的结合位点为研究对象，构建9种结合位点数据集，利用MATLAB进行统计结合位点各种氨基酸的频率，结果发现，蛋白质与蛋白质相互作用的结合位点最多，蛋白质与ATPGTP相互作用的结合位点最少，而且还可以得知各种类型结合位点的氨基酸具有明显的偏好性。

该研究有助于认识固有无序蛋白质与其它成份的相互作用特征、为进一步挖掘固有无序蛋白质的序列特征，进而为发展预测固有无序蛋白质与蛋白质、DNA、RNA、配体、辅因子等物质结合位点的软件奠定了良好的基础。

关键词固有无序蛋白；无序区；序列分析；结合位点

1引言

1.1固有无序蛋白质

蛋白质是构成生物体最重要的两类大分子之一，蛋白质翻译在整个生物过程中发挥着非常重要的作用。

传统思想认为，蛋白质要实现生物功能，必须先折叠成一个稳定的三维结构，因此形成了蛋白质结构决定其功能的主流观点，对蛋白质科学的研究已经取得了一系列成就，创造了现代蛋白质科学的“大爆炸”时代[1]。

然而，随着基因工程方法和实验技术的发展以及基因组计划的开展，在上个世纪90年代初，人们发现有些蛋白质或蛋白质序列中的一部分区域在生理条件下不具有一个确定的三维结构，但依然能够正常行使生物学功能。

后来发现，这类蛋白质越来越多，并逐渐形成了一种新的蛋白质类型，称为固有无序蛋白质[2,3,4]（intrinsicallydisorderedproteins，简称为IDPs）。

固有无序蛋白质的特征是整条链或链的一部分并不具有严格的三维结构，原子位置及主链二面角没有特定的平衡值而是随着时间发生很大的变化。

经过十多年的研究，人们发现这类蛋白质在生物体内普遍存在而且十分丰富[5,6]，可以位于细胞的不同部位。

研究还发现，真核生物体中含有的固有无序蛋白质数量远远高于古细菌和细菌中的固有无序蛋白[7,8]，即生物进化的一个重要特点是蛋白质中无序区的含量在增加。

固有无序蛋白质概念的提出既是对蛋白质科学的挑战，也是科学研究的巨大机遇，为了深入认识固有无序蛋白质的性质，研究其序列特征、进化过程中结构的保守性以及功能等是十分重要的科学问题。

1.2固有无序蛋白质的生物学功能

无序蛋白质在生物体内是普遍存在的。

例如利用预测算法DISOPRED2对古细菌细菌和真核生物的蛋白质组序列进行的分析表明，长度大于30个氨基酸的无序区域在这三个物种中的比例分别为2.0%、4.2%和33.0%[9]。

对目前存在的大量基因库数据进行预测，分析蛋白质的结构无序与蛋白质功能之间的关联，通过这种方法人们发现无序蛋白质在诸如转录和翻译调控细胞信号转导蛋白磷酸化及小分子存储等过程中发挥着重要的作用；另一方面无序蛋白质又似乎给生物体系带来一些不利的影响，经常与多种疾病联系在一起。

与人类癌症相关的蛋白质中有79%的蛋白质有无序片段；在心血管疾病有关的蛋白质中，无序蛋白质的含量也高达57%。

DisProt数据库将所有固有无序蛋白质分为7大功能和1组未知功能，并且将这7种功能又细分为28种更具体的功能。

按照Disprot数据库的功能划分方法，将此数据库中所有固有无序蛋白质分为以下8组：

分子伴侣、熵链、金属吸附器、位点修饰、分子组装、分子识别效应器、分子识别抗氧剂和未知功能。

1.3固有无序蛋白质的序列

氨基酸（Aminoacid）是构成蛋白质的基本单位，赋予蛋白质特定的分子结构形态，使它的分子具有生化活性。

固有无序蛋白质可以指整个蛋白质在生理环境下缺乏稳定的结构，也可以指蛋白质中的一部分区域没有结构，这部分区域通常称为无序区。

这类蛋白质在氨基酸序列上具有显著的特征。

其中最显著的特征是它们的疏水残基含量较低，同时拥有较高的未被中和的电荷因此不能形成一个稳定的疏水核心，在疏水性电荷图上无序蛋白质与有序蛋白质明显存在于不同的区域图。

另外无序蛋白质氨基酸序列的复杂性也较有序蛋白质的低，序列上常常出现重复的区域。

Radivojac对此进行过研究，得出不同的氨基酸残基也具有不同的促进无序结构形成的倾向的结论：

Gly、Trp、Tyr、Ile、Phe、Val、Leu、His、Thr、Asn比较有利于有序结构的形成；Asp、Met、Lys、Arg、Ser、Glu、Pro、Gln有利于无序的形成，而其它残基的作用则比较中性。

无序蛋白质的出现还与氨基酸残基的预期堆积密度（用一定距离内的近邻残基数目来表征）有关联，预期堆积密度低的序列倾向于形成无序蛋白质，密度高的倾向于形成淀粉状聚集结构，而预期堆积密度适中的序列则倾向于形成有序球状蛋白。

1.4蛋白质结合位点预测的意义

在后基因组时代，生命科学的中心任务是阐明基因组所表达的真正执行生命活动的全部蛋白质的表达规律和生物功能。

蛋白质与配体相互作用以及蛋白质结构与功能之间的关系是后基因组时代研究的核心内容，而蛋白质的结合位点的预测是这些研究领域的理论基础，同时也是基于结构的药物设计中至关重要的步骤，对计算机辅助药物设计和复合物结构预测具有重要意义，也是生物信息学领域一个重要的研究热点。

蛋白质与其他蛋白质、DNA和RNA的相互作用是实现许多细胞功能的途径[10]。

近年来，随着X-射线晶体衍射和核磁共振等技术的日趋完善，越来越多高分辨率的复合物三维结构被测出，这使得人们能够从原子水平上研究蛋白质与其他蛋白质、DNA和RNA相互作用的结合位点。

近年来，对此领域的研究发展较快，已有大量文献利用机器学习算法，力求寻找最合适的特征参数来分析及预测蛋白质与生物大分子相互作用时序列中的结合残基[11]。

固有无序蛋白质也是蛋白质，它往往与其他蛋白质、DNA和RNA等通过结合位点结合来行使功能，结构上的柔性和在复合物状态能发生无序-有序转变的特性使其能够与蛋白质、DNA和RNA等发生广泛的相互作用，从而行使诸多重要的生物学功能。

已有研究通过对固有无序蛋白质在形成复合物状态下的分子内和分子间相互作用进行分析发现，固有无序蛋白质与受体分子之间的相互作用要强于固有无序蛋白质分子内的相互作用，因此固有无序蛋白质在结合状态下的有序结构主要是由残基分子与其他生物分子间形成的非共价键相互作用力来稳定[12]，如氢键、静电相互作用力以及范德华力等。

也有研究表明，固有无序蛋白质复合物的界面通常由连续的氨基酸构成，而由有序蛋白质构成的复合物的界面则由多个不连续的序列组成[13]，因此要形成同样大小的结合界面，固有无序蛋白质只需要较短的序列，有利于减小体积，降低细胞内的拥挤程度[14]。

这表明对固有无序蛋白质相互作用位点的预测会更进一步了解固有无序蛋白质的表达规律和生物功能。

1.5课题研究思路和意义

课题以DisProt[15]数据库中固有无序蛋白质为研究对象，利用BSDP（BindingSitesofDisorderedProteins）数据库，利用编程软件Matlab7.0进行统计得到新的结合位点数据。

具体工作为：

首先利用Disprot数据库下载所有固有无序蛋白，经过去冗余处理后，再利用BSDP]数据库构建固有无序蛋白质-蛋白质、固有无序蛋白质-DNA、固有无序蛋白质-RNA复合物、固有无序蛋白与辅因子、固有无序蛋白与金属、固有无序蛋白与配体、固有无序蛋白与ATPGTP、固有无序蛋白与其它物质结合位点的数据集。

在此基础上，研究了固有无序蛋白与其它因子相互作用结合位点的氨基酸序列的偏好性。

本研究工作，有助于认识固有无序蛋白质与其它成份的相互作用特征、了解现有蛋白质与核酸以及其他物质作用位点预测对固有无序蛋白情况的适用性、进一步挖掘固有无序蛋白质的序列特征，进而为发展固有无序蛋白质与蛋白质、DNA、RNA、配体、辅因子等物质的预测软件奠定了良好的基础。

2数据来源及去冗余处理

2.1固有无序蛋白质数据来源

目前，经实验确认的固有无序蛋白质的数目日益增加，为方便这些数据的管理和注释，人们开始建立有关IDPs的数据库。

Megan和Dunker等创立了系统描述固有无序蛋白的DisProt数据库（），该数据库展示了IDPs的实验特征和生物学功能，给出了多种不同实验技术得到的IDPs的大量范例，包括许多IDPs及其区域的功能信息，而且把IDPs及其无序区域的结构和功能系统地联系起来了。

本工作以固有无序蛋白质数据库DisProt为研究对象，下载了数据库中最新的固有无序蛋白质版本6.01，发布日期为2012年10月15日，共有无序蛋白质的数目是684个，无序区为1513个。

通过编程分析得到最长的序列有18534个氨基酸，最短的序列只有33个氨基酸，平均为489个氨基酸。

2.2固有无序蛋白质数据去冗余处理

由于蛋白质序列数据库中都含有大量的冗余序列，冗余序列通常不能提供更多的信息，而且不利于数据的统计分析，而且它们要占用更多的计算机存储和处理资源。

去除这些冗余信息具有很高的实用价值，不但可以减小数据库的大小提高序列搜索的速度，而且有助于对数据的统计分析。

2.2.1去冗余软件

人们通常认为相似的生物序列具有相似的生物功能和结构，也具有相似的进化历史。

一般可以通过三种方式来确定序列之间的相似度，即序列片段过滤、序列比对以及二者结合的方式。

序列片段过滤可以通过计算序列片段的数目来断定序列之间的相似度在某个阈值之内，速度较快；序列比对是一种常用的序列之间相似性分析和比较的方法，可以分为全局比对和局部比对两种方法，序列比对方法可以获得较为精确的相似度，但通常占用较多的时间；出于对精确度和速度的折中，可以采用上述两种方法结合的方式来确定序列之间的相似度，即首先设置一些过滤策略来减少序列之间比对的次数，再在必要时采用序列比对来确定序列之间的相似度，我们现在所了解的是著名的去冗余程序CD-HIT[16,17]（）就是采用了这种方式来实现的。

本研究用CD-HIT进行去冗余处理，将相似度阈值设为30%。

2.2.2去冗余结果

（1）去冗余前，蛋白质共有684条序列，最长序列有18534个氨基酸，最短序列有33个氨基酸，平均为489个氨基酸。

去冗余后，蛋白质共有549个序列，最长为18534个氨基酸，最短为33个氨基酸，平均长度为525个氨基酸。

可以得到处理前和处理后最长序列和最短序列的氨基酸个数相同，处理前的平均氨基酸个数稍比处理后要短，但基本相同，说明相似度阈大于30%蛋白质序列的氨基酸多数在平均数以下。

（2）把氨基酸的的长度分成7块，分别统计了去冗余前后固有无序蛋白序列的条数，

长度

去冗余前序列条数

去冗余后序列条数

33-958

616

486

52

49

8

7

6

5

1

0

1

（3）氨基酸的个数和百分含量的对比。

通过使用Matlab7.0对所下载的所有蛋白质序列进行编程，得到了去冗余前后所有氨基酸的总数及各种氨基酸的个数。

通过对这些数据进行处理，可以更清楚的看到去冗余前后各种氨基酸的变化情况，如表2-2所示。

为了更好的比较去冗余去前后氨基酸组成的变化，做了图2-1和图2-2。

氨基酸种类

去冗余前后氨基酸个数

去冗余前后氨基酸百分含量

G

22865

19488

7.50%

6.76%

A

25111

21555

7.50%

7.48%

V

20789

18031

6.21%

6.25%

I

15318

13400

4.58%

4.65%

L

27922

24122

8.30%

8.37%

F

10715

9271

3.20%

3.22%

P

20047

16863

5.99%

5.85%

M

7441

6305

2.22%

2.19%

W

3415

2892

1.02%

1.00%

C

4998

4263

1.49%

1.48%

S

26305

22689

7.86%

7.87%

T

19180

16591

5.73%

5.75%

N

13768

12110

4.11%

4.20%

Q

16145

13737

4.82%

4.76%

Y

8884

7662

2.66%

H

7163

6059

2.14%

2.10%

D

18925

16537

5.66%

5.74%

E

26171

22754

7.82%

7.89%

K

22512

19542

6.73%

6.78%

R

16938

14422

5.06%

5.00%

结论：

通过对数据的处理分析，可以得到去冗余前氨基酸总数为334623个，去冗余之后，氨基酸总数为288302个。

从图2-1可以更直观的看出去冗余前各氨基酸总数比去冗余之后稍高，这是因为蛋白质序列经过去冗余后，相似度大于30%的序列去掉了，因此氨基酸的数目都有所降低。

从图2-2可以看出20中氨基酸在序列中所占百分含量总体趋势去冗余前后变化不大，各氨基酸含量总趋势也是不变的。

但是从表2-2中可以看出去冗余后较去冗余前Ala、Pro、Met、Cys、Gln、His、Ary含量下降；Val、Ile、Leu、Phe、Trp、Ser、Thr、Asn、Tyr、Asp、Glu、Lys含量略有升高。

由此结果也可以看出，去冗余后确实各种氨基酸的含量和去冗余前有所变化，这一结果也进一步体现出去冗余的重要性。

后面蛋白质序列数据的分析都是对去冗余后的序列进行分析的。

2.3结合位点数据集的来源及分析方法

BSDP数据库主要是无序蛋白质结合位点信息的数据库，从BSDP数据库中得到固有无序蛋白质-蛋白质、固有无序蛋白质-DNA、固有无序蛋白质-RNA、固有无序蛋白与辅因子、固有无序蛋白与金属、固有无序蛋白与配体、固有无序蛋白与ATPGTP、固有无序蛋白与其它物质以及固有无序蛋白所有相互作用的结合位点，共九组数据。

运用软件MATLAB7.0编写程序（见附录）来统计相互作用的结合位点中各种氨基酸占所有氨基酸的比例，并画出柱状图。

3固有无序蛋白结合位点氨基酸组成偏好性分析

3.1各种相互作用类型中固有无序蛋白质结合位点的统计分析

首先统计了八组物质与固有无序蛋白的结合位点的总个数以及无序区和有序区结合位点的分布（见图3-1a：

蛋白质与DNA结合位点b：

蛋白质与RNA结合位点c：

蛋白质与蛋白质结合位点d：

蛋白质与辅因子结合位点e：

蛋白质与金属结合位点f：

蛋白质与配体结合位点g：

蛋白质与ATPGTP结合位点-ATPGTP的结合位点最少。

表明固有无序蛋白行使功能时与蛋白质结合情况居多，而与ATPGTP结合情况较少。

3.2固有无序蛋白与蛋白质结合位点的统计分析

图3-2为固有无序蛋白与蛋白质结合位点的统计图，图中横坐标大写英文字母为20种氨基酸的单字母英文缩写，纵坐标为结合位点中各氨基酸所占比例（下图同）。

通过该图我们可以发现在结合位点中各种氨基酸均有出现且频率不等。

氨基酸Trp，Met，Val，Arg频率较高，比较受欢迎，而氨基酸Ser，Qln，His频率较低，不太受欢迎。

3.3固有无序蛋白与DNA结合位点的统计分析

图3-3为固有无序蛋白与DNA结合位点的统计图，通过该图我们可以发现在结合位点中各种氨基酸出现频率相差较大。

氨基酸Arg，Trp，Gly频率较高，比较受欢迎，而氨基酸His在无序区没有出现，另外氨基酸Met，Ser，Fhe，Phe，Asp频率较低，不太受欢迎。

3.4固有无序蛋白与RNA结合位点的统计分析

图3-4为固有无序蛋白与RNA结合位点的统计图.通过图3-4与图3-3相比我们可以发现，两图氨基酸的频率有些相近，氨基酸Trp，Gly频率较高，比较受欢迎，氨基酸Met，Ser，Fhe，Pro，Asp，His频率较低，不太受欢迎。

这可能由于DNA和RNA都是核酸，具有相似的核苷酸组成，因此在选择与其结合的氨基酸残基时具有相近的偏好。

3.5固有无序蛋白与ATP\AGP结合位点的统计分析

图3-5为固有无序蛋白与ATP\AGP结合位点的统计图，可以发现，总体来说结合位点较少，一半以上的氨基酸在结合位点中没有出现，在出现的氨基酸中Gly的频率较高，在结合位点中比较受欢迎。

氨基酸Ala，Trp，Met，Val，Gln，Glu，Asp也有出现，但频率较低，不是很受欢迎。

3.6固有无序蛋白与辅因子结合位点的统计分析

通过图3-6我们可以发现，无序蛋白与辅因子的结合位点中氨基酸Ala，Gln频率较高，比较受欢迎，而氨基酸The，Phe，Asn，Pro，His，Asp没有出现，其余氨基酸虽有出现但频率较低，在结合位点中不太受欢迎。

3.7固有无序蛋白与配体结合位点的统计分析

由图3-7我们可以发现，固有无序蛋白与配体的结合位点中氨基酸Trp，His频率较高，而氨基酸Ala，Ser，Lys，Arg，Phe，Pro，Asp没有出现，其余氨基酸虽有出现，但频率较低。

3.8固有无序蛋白与金属离子结合位点的统计分析

通过图3-8我们发现，固有无序蛋白与金属离子结合位点中氨基酸Met，Gly，Gln，Lys出现的频率较高，氨基酸Ala，Thr，Leu，Gly，Asn，Tyr，Asp出现的频率较低，其余氨基酸没有出现。

3.9固有无序蛋白其它结合位点的统计分析

通过图3-9我们可以发现，固有无序蛋白的其它结合位点中，氨基酸Met，Gly，Cys出现频率较高，比较受欢迎，而氨基酸Leu，Pro没有出现，另外，氨基酸Ser，Arg，Phe出现的频率较低，在结合位点中不太受欢迎。

3-9固有无序蛋白与其它离子结合

3.10固有无序蛋白结合所有位点中各种氨基酸的统计

图3-10为所有相互作用类型中固有无序蛋白结合位点中各种氨基酸的统计结果。

通该图，我们可以发现在无序组蛋白与其它物质相互作用时，结合位点的各种氨基酸的频率不同，综合考虑各种相互作用，氨基酸Trp，Met，Val，Gly所占比例较高，而氨基酸Ser，Phe，His所占比例较低。

这表明在各种相互作用中氨基酸Trp，Met，Val，Gly比较受欢迎，而氨基酸Ser，Phe，His不太受欢迎。

另外，同是受欢迎的氨基酸在各种相互作用中受欢迎的程度却是不同的，同样地，不受欢迎的氨基酸在各种相互作用中不受欢迎的程度也是不同的。

这可能与氨基酸的极性与非极性有关，氨基酸所带的电荷、偶极矩以及侧链体积都有可能影响它的结合频率。

4结论

自从20世纪90年代固有无序蛋白质被发现以来，短短的十几年时间里，关于固有无序蛋白质的研究，从当初的萌芽期迅速发展成一个重要且富有活力的蛋白质科学研究领域。

论文以DisProt、BCDP数据库中固有无序蛋白质结合位点为研究对象，利用编程软件Matlab7.0对数据进行统计得到新的数据，然后对数据进行分析，得到以下结论：

（1）去冗余后各种氨基酸的含量和去冗余前有所变化，这一结果也进一步体现出去冗余的重要性，为我们在后面分析数据时的处理提供了借鉴。

（2）在八种相互作用中，固有无序蛋白与蛋白质相互作用的结合位点最多，表明固有无序蛋白在行驶功能时与蛋白质结合具有明显的偏好性。

而固有无序蛋白中蛋白质与ATPGTP相互作用的结合位点最少。

（3）通过分析可以得知：

在蛋白质和蛋白质的结合位点中，氨基酸Trp，Met，Val，Arg频率较高，而氨基酸Ser，Qln，His频率较低；在蛋白质与DNA的结合位点中，氨基酸Arg，Trp，Gly频率较高，氨基酸Met，Ser，Fhe，Phe，Asp频率较低，而氨基酸His在无序区没有出现；在蛋白质与RNA的结合位点中氨基酸Trp，Gly频率较高，氨基酸Met，Ser，Fhe，Pro，Asp，His频率较低；在蛋白质与ATP\AGP的结合位点中，氨基酸中Gly的频率较高，氨基酸Al，Trp，Met，Val，Gln，Glu，Asp也有出现，但频率较低，其余氨基酸没有出现；在蛋白质与辅因子的结合位点中，氨基酸Ala，Gln频率较高，而氨基酸The，Phe，Asn，Pro，His，Asp没有出现，其余氨基酸虽有出现但频率较低；在蛋白质与配体的结合位点中，氨基酸Trp，His频率较高，而氨基酸Ala，Ser，Lys，Arg，Phe，Pro，Asp没有出现,其余氨基酸虽有出现，但频率较低；在蛋白质与金属结合位点中，氨基酸Met，Gly，Gln，Lys出现的频率较高，氨基酸Ala，Thr，Leu，Gly，Asn，Tyr，Asp出现的频率较低，其余氨基酸没有出现；在无序组蛋白的其它结合位点中，氨基酸Met，Gly，Cys出现频率较高，而氨基酸Leu，Pro没有出现，氨基酸Ser，Arg，Phe出现的频率较低。

固有无序蛋白质是一类具有特殊序列、结构特征，行使特殊功能的一类特殊蛋白质，目前成为蛋白质研究领域的热点之一。

以上关于固有无序蛋白质中相互作用位点的氨基酸偏好性分析将会为今后蛋白质与其它分子结合位点预测工作提供新的思路和数据支持。

随着可得到的固有无序蛋白质与DNA、RNA、蛋白质复合物等结合物结构数据的不断增多，我们可以从原子水平上发现更多的相互作用过程中的规律，以加深对这种相互作用机制的理解，从而在理论上为药物的开发和疾病的治疗提供可靠的帮助。

参考文献

[2]DunkerAK,ObradovicZ,RomeroP,GarnerEC,BrownCJ.Intrinsicproteindisorderincomplete[3]DunkerAK,OldfieldCJ,MengJ,RomeroP,YangJY,etal.Theunfoldomicsdecade:

anupdateonintrinsicallydisorderedproteins.BMCGenomics.2008,9Suppl2:

S1.

[4]NishikawaK.Nativelyunfoldedproteins:

Anoverview.BIOPHYSICS.2009,5:

58-59.

[5]RadivojacP,IakouchevaLM,OldfieldCJ,ObradovicZ,UverskyVN,etal.Intrinsicdisorderand[6]BurraPV,KalmarL,TompaP.Reductioninstructuraldisorderandfunctionalcomplexityinthethermaladaptationofprokaryotes.PLoSOne.2010,5:

e12069.

[7]Pavlovic-LazeticGM,MiticNS,KovacevicJJ,ObradovicZ,MalkovSN,etal.Bioinformaticsanalysisof

[8]XueB,DunkerAK,UverskyVN.Orderlyorderinproteinintrinsicdisorderdistribution:

disorderin3500[9]SethiD,GargA,RaghavaGP.DPROT:

predictionofdisorderedproteinsusingevolutionary

[10]BellayJ,HanS,MichautM,KimT,CostanzoM,etal.Bringingordertoproteindisorderthroug