蛋白质PDB文件说明Word格式.docx
- 文档编号:8098070
- 上传时间:2023-05-10
- 格式:DOCX
- 页数:106
- 大小:62.09KB
蛋白质PDB文件说明Word格式.docx
《蛋白质PDB文件说明Word格式.docx》由会员分享,可在线阅读,更多相关《蛋白质PDB文件说明Word格式.docx(106页珍藏版)》请在冰点文库上搜索。
GLYCINELIGASE
COMPND5(ADP-FORMING);
COMPND6EC:
6.3.2.3;
COMPND7ENGINEERED:
YES
S-ADENOSYLMETHIONINESYNTHETASE;
A,B;
MAT,ATP\:
L-METHIONINES-ADENOSYLTRANSFERASE;
COMPND5EC:
2.5.1.6;
COMPND6ENGINEERED:
YES;
COMPND7BIOLOGICAL_UNIT:
TETRAMER;
COMPND8OTHER_DETAILS:
TETRAGONALMODIFICATION
数据类型-------------------------------------
该部分该部分主要用来描述试验和记录中该大分子的一些基本信息,有
以下几种记录:
HEADER,OBSLTE,TITTITLE,CAVEAT,COMPND,SOURCE,KEYWDS,EXPDTA,
AUTHOR,REVDAT,SPRSDE,JRNL和REMARK部分。
以下来具体说明一下各个记录。
记录类型--------------------------------------
按照在记录中出现的频率区分:
SINGLE
一个文件中只出现一次.按字母顺序列出如下:
记录类型说明
CRYST1晶胞参数
END结束
HEADER分子类,公布日期,ID号
MASTER版权拥有者
ORIGXn直角-PDB坐标
SCALEn直角部分结晶学坐标
如果这些记录在一个记录中重复出现是错误的。
SINGLECONTINUED
在记录中概念性的只出现一次,但信息内容可能超过了可利用列的数目.因次这些记录在后来的排列中会继续.按字母顺序列出如下:
AUTHOR结构测定者
CAVEAT可能的错误提示
COMPND化合物名称
EXPDTA测定结构所用的试验方法
KEYWDS关键词
OBSLTE注明该id号已改为新号
SOURCE化合物来源
SPRSDE已撤消或更改的相关记录
TITLE说明试验方法类型
MULTIPLE
大部分记录类型多次出现,经常出现在这些组中,组中的信息理论上并没有连接,但已呈现为列表的组成部分.这种记录类型中的许多习惯连载可能不仅仅制定记录还和其他记录相联.按字母顺序列出如下:
ANISOU温度因子
ATOM标准基因的原子坐标
CISPEP顺势残基
CONECT有关记录
DBREF其他序列库的有关记录
HELIX螺旋
HET非标准残基
HETSYM非标准残基的同义字
HYDBND氢键
LINK残基间化学键
MODRES对标准残基的修饰
MTRIXn显示非晶相对称
REVDAT修订日期及相关内容
SEQADVPDB与其它记录的出入
SEQRES残基序列
SHEET片层
SIGATM标准差
SIGUIJ温度因子
SITE特性位点
SLTBRG盐桥
SSBOND二硫键
TURN转折
TVECT转换因子
MultipleContinued
在记录中概念性的出现多次,但信息内容可能超过了可利用列的数目.因次这些记录在后来的排列中会继续.按字母顺序列出如下:
FORMUL非标准残基化学式
HETATM非标准集团原子坐标
HETNAM非标准残基的化学名称
Grouping
有三种记录类型用来聚合其他记录.按字母顺序列出如下:
ENDMDL亚基结束
MODEL多亚基时,示亚基号
TER链末端
MODEL/ENDMDL记录包围着ATOM,HETATM,SIGATM,ANISOU,SIGUIJ,和TER记录.TER记录预示链的末端.
Other
其他记录类型有详细的内部结构.按字母顺序列出如下:
JRNL发表坐标集的文献
REMARK注解
记录的表示
PDB数据库中的数据都应按照一定的规定来出现,强制记录类型必须出现在所有的记录中,当强制数据没有提供,记录名必须出现在记录中并以NULL表示当此条件存在时选择项表就变成强制记录类型。
以下表格是对这两种类型的具体划分和描述:
记录类型
说明
变为强制的条件
HEADER
强制
OBSLTE
可选
个别记录中强制
TITLE
CAVEAT
该记录中有错误
COMPND
SOURCE
KEYWDS
EXPDA
AUTHOR
REVDAT
SPRSDE
在被替代的记录中
JRNL
出版物描述了该试验
REMARK1
REMARK2
REMARK3
REMARKN
一定条件下强制,如记录在备注描述
DBREF
每个缩氨酸链的长度大于十个残基并且核酸记录存在于核算蛋白库中(NDB)
SEQADV
有序列冲突
SEQRES
ATOM记录存在
MODRES
有修饰存在
HET
有不标准的残基除了水分子
HETNAM
HETSYN
FORMUL
有不标准的残基或水
HELIX
SHEET
TURN
SSBOND
有二硫键存在
LINK
HYDBND
SLTBRG
CISPEP
SITE
CRYST1
ORIGX1ORIGX2ORIGX3
SCALE1SCALE2SCALE3
MTRIX1MTRIX2MTRIX3
完全不对称单元
非晶相对称
TVECT
MODEL
记录中多于一个MODEL
ATOM
有标准的残基存在
SIGATM
ANISOU
SIGUIJ
TER
有ATOM记录存在
ENDMDL
有MODEL存在
CONNECT
不标准的团存在
MASTER
END
记录部分的划分
Title
大概描述
HEADER,OBSLTE,TITLE,CAVEAT,COMPND,SOURCE,KEYWDS,EXPDTA,AUTHOR,REVDAT,SPRSDE,JRNL
Remark
参考书目,最大分辨率,注解等
REMARKs1,2,3andothers
Primarystructure
一级结构氨基酸或核苷酸序列和PDB序列与其他序列库的有关记录
DBREF,SEQADV,SEQRES,MODRES
Heterogen
不标准组的描述
HET,HETNAM,HETSYN,FORMUL
Secondarystructure
二级结构
HELIX,SHEET,TURN
Connectivityannotation
化学元素连接
SSBOND,LINK,HYDBND,SLTBRG,CISPEP
Miscellaneousfeature
大分子的特征
SITE
Crystallographic
晶体细胞描述
CRYST1
Coordinatetransformation
坐标描述
ORIGXn,SCALEn,MTRIXn,TVECT
Coordinate
原子坐标数据
MODEL,ATOM,SIGATM,ANISOU,SIGUIJ,TER,HETATM,ENDMDL
Connectivity
化学键连接
CONECT
Bookkeeping
概要信息和结束标志
MASTER,END
对数据类型的说明
数据类型
描述
Achar
一个英文字母(A-Z,a-z)
Atom
原子名
Character
ASCII码和空格
Continuation
如果一行描述不完用此表示序列号,占两个字符右对齐,第一个用空格
Date
占九个字符dd-mmm-yy,DD表日期,右对齐不足左补零;
MMM表月份用常用的三个英文字母表示;
YY表20世纪的一年,他们都必须是有效日期
IDcode
占四个字符,第一个是阿拉伯数字(0-9),余下的三个由希腊数字组成,字母必须是大写的。
若第一个是阿拉伯数字零则对此蛋白质的描述中没有坐标数据
Integer
右对齐,不足的用空格填充的整型数据
Token
由一组没有空格的字符组成,结尾部分紧跟着冒号和空格
List
一个由逗号分开的字符串
Lstring
字符串,任何空格都有意义必须保存
LString(n)
有N个字符的Lstring
Real(n,m)
实型
Recordname
记录的名字,由六个字符组成,左对齐,不足的用空格补充
Residuename
右对齐格式标准氨基酸或核苷酸中的一个,后有列表.不标准组分在HET中详细说明
Slist
由一些内容组成的字符串,有分号分开
Specification
由一些token记录组成的字符串,由冒号分开
Specificationlist
由Specifications组成的序列,由分号分开
String
由字符组成的序列,可能有些空格,但应该详细说明
String(n)
由N个字符组成String
SymOP
由4-6个数字组成的整数,右对齐格式.详细资料在Appendix1
残基名字
在PDB格式中出现的标准残基的名字:
残基类型
氨基酸
ALA,ARG,ASN,ASP,CYS,GLN,GLU,GLY,HIS,ILE,LEU,LYS
核酸
A,C,G,T,U,I,+A,+C,+G,+T,+U,+I
其他
UNK(unknown)
Appendix4中有更多关于标准残基名和缩写的信息,Appendix5中有他们的化学式和分子量.
标题部分
HEADER(分子类,公布日期、ID号)
综述
该记录包含三个方面的内容:
蛋白质的种类,被该数据库接收的日期和唯一区分该蛋白质的idCODE.
记录格式
列
字段名称
定义描述
1–6
Recordname
"
HEADER"
11–50
String(40)
classification
该蛋白质的分类
51–59
depDate
被数据库接收的日期
63–66
idCode
唯一标识某个蛋白
细节
改分类表示是左对齐的,并且由于分给字符位的限制,有时分类名太长,要用简写表示。
在KEYWDS记录中存着改分类的全称。
示例
1
2
3
4
5
6
7
1234567890123456789012345678901234567890123456789012345678901234567890
MUSCLEPROTEIN
02-JUN-93
1MYS
HYDROLASE(CARBOXYLICESTER)
08-APR-93
2PHI
COMPLEX(LECTIN/TRANSFERRIN)
07-JAN-94
1LGB
OBSLTE(注明此ID号已改为新号)
该记录出现在已经被收回的蛋白质的描述中,可以作为一个标志。
任何新的记录都能代替别回收的记录.这个版本允许多个新纪录代替现有记录.
列
数据类型
OBSLTE"
9–10
continuation
允许多重记录串联表示不同行的顺序号
12–20
repDate
被替代的日期
22–25
该记录的idcode
32–35
rIdCode
替换的idcode
37–40
42–45
47-50
52-55
57–60
62–65
67–70
只有第一个提交记录的人才有权利收回改蛋白质,所有回收的记录都有研究用途.
OBSLTE
31-JAN-941MBP
2MBP
TITLE(说明实验方法类型)
该记录描述试验的题目或者对它的一些分析。
该记录唯一区分一个蛋白质。
字段名称
1-6
TITLE"
9-10
Continuation
顺序
11-70
String
标题
试验题目
1.描述记录内容和区别相似记录得程序或条件,使录入者有机会着重强调做这些特殊试验得根本目的.
2.TITLE可能包括得一些项目:
-实验类型
-对突变的描述
-记录中只给出α-碳原子.
1234567
TITLERHIZOPUSPEPSINCOMPLEXEDWITHREDUCEDPEPTIDEINHIBITOR
TITLEBETA-GLUCOSYLTRANSFERASE,ALPHACARBONCOORDINATESONLY
CAVEAT(可能的错误提示)
警告在蛋白质记录中中出现的错误。
CAVEAT"
9-10
12-15
蛋白质的IDcode
20-70
comment
警告的原因
1.PDB在还未回收的错误记录中加此记录,用的比较保守只在外部评论后用.
2.PDB不能核实转化回晶胞时注意此记录,此时分子结构依然正确.
1ABC
THECRYSTALTRANSFORMATIONISINERRORBUTIS
21ABC
UNCORRECTABLEATTHISTIME
COMPND(化合物分子组成)
描述蛋白质的组成
COMPND"
continuation
Specificationlist
compound
对分子成分的描述
对蛋白质组成的描述又细分为如下:
记号
确切涵义描述
MOL_ID
每一成分的数目
MOLECULE
分子名
CHAIN
逗号分开链标识符,若空白用"
NULL"
表示
FRAGMENT
对结构域或具体部分的详细描述
SYNONYM
MOLECULE同义部分,逗号分开
EC
酶学委员会相关号码,不止一个时用逗号分开
ENGINEERED
分子通过重组产生或纯化学合成
MUTATION
自野生型突变的描述
BIOLOGICAL_UNIT
完整功能单元描述
OTHER_DETAILS
增加的注释
对MUTATION以下举例说明惯用的几种突变类型:
突变类型
描述
形式
简单替代
Asn替代His57
只在C链中Asn替代His57
H57N
ChainC,H57[A]N
插入突变
HisandPro插入Lys48前
INS(HP-K48)
缺失突变
A链和C链的Arg141缺失,B链
中的不缺失
His23到ARG26缺失DEL(23-26)
只B链的His23C和Arg26缺失
ChainA,C,DEL(R141)
DEL(23-26)
ChainB,DEL(H23[C],R26)
如有多于十种突变:
-所有突变在SEQADV记录中列出
-一些突变可能在COMPND的MUTATION中列出来强调录入者认为最重要的部分.
MOL_ID:
2MOLECULE:
HEMOGLOBIN;
3CHAIN:
A,B,C,D;
4ENGINEERED:
5MUTATION:
CHAINB,D,V1A;
6BIOLOGICAL_UNIT:
HEMOGLOBINEXISTSASANA1B1/A2B2
7TETRAMER;
8OTHER_DETAILS:
DEOXYFORM
COWPEACHLOROTICMOTTLEVIRUS;
A,B,C;
4SYNONYM:
CCMV;
5MOL_ID:
2;
6MOLECULE:
RNA(5'
-(*AP*UP*AP*U)-3'
);
7CHAIN:
D,F;
8ENGINEERED:
9MOL_ID:
3;
10MOLECULE:
-(*AP*U)-3'
11CHAIN:
E;
12ENGINEERED:
HEVAMINEA;
4EC:
3.2.1.14,3.2.1.17;
5OTHER_DETAILS:
PLANTENDOCHI
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 蛋白质 PDB 文件 说明