dbSNP数据库.ppt
- 文档编号:13197890
- 上传时间:2023-06-12
- 格式:PPT
- 页数:39
- 大小:2.75MB
dbSNP数据库.ppt
《dbSNP数据库.ppt》由会员分享,可在线阅读,更多相关《dbSNP数据库.ppt(39页珍藏版)》请在冰点文库上搜索。
dbSNP数据库,SNP(SingleNucleotidePolymorphism)综述,有的人吸烟喝酒却长寿,也有人自幼就病痛缠身;同一种治疗肿瘤的药物对一些人非常有效,对另一些人则完全无效。
这是为什么?
答案是他们基因组中存在的差异。
这种差异很多表现为单个碱基上的变异,也就是单核苷酸的多态性(SNP)。
2001年二月,美、英等国宣布完成了人类基因体定序及分析初稿,这项划时代的创举将人类基因体科技带入新的境界,也连带开启了分子生物学、蛋白质体学、药物基因体学等新研究趋向。
人类基因译码初稿的完成,象征着人类基因体解读计划的第一阶段已告一段落。
但接下来对于基因定序数据的检测与分析,以及运用这份草图来寻找个体间基因序列差异性的任务,才刚刚开始。
了解个体间基因序列差异性的研究,不但对族群遗传学、演化学的研究相当重要,在利用连锁不平衡(LinkageDisequilibrium)进行复杂性遗传疾病(multiplegenesdiseases)的相关性研究上也扮演重要的角色。
SNP概念及其类型,SNP,念法为snIp,是SingleNucleotidePolymorphism的英文简称,其中文译为“单一核苷酸多型性”,意思是“DNA序列中的单一碱基对(basepair)变异”,也就是DNA序列中A、T、C、G的改变,即基因组的一个特异和定位的位点出现两个或多个的核苷酸可能性,它是人类可遗传的变异中最常见的一种。
占所有已知多态性的90%以上。
SNP在人类基因组中广泛存在,平均每5001000个碱基对中就有1个,估计其总数可达300万个甚至更多。
目前科学界已发现了约400万个SNPs。
SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。
但通常所说的SNP并不包括后两种情况。
DNA分子示意图,DNA变异类型,部分密码子:
UAU酪氨酸,UCU丝氨酸,UAC酪氨酸,UUG亮氨酸,UGC半胱氨酸,UUU苯丙氨酸,AUG甲硫氨酸,编码连,基因示意图,基因的表达过程,一一对应,一一对应,基因表达,一一对应,基因的表达,碱基的互补配对原则T-AA-UC-G保证了遗传信息准确无误地表达。
模板链(无义链),非模板链(有义链或编码连),密码子,密码子表,dbSNP简介,dbSNP:
databaseofSNP(Wikipedia:
TheSingleNucleotidePolymorphismDatabase)单核苷酸多态性数据库dbSNP(http:
/www3.ncbi.nlm.nih.gov/SNP/)是由NCBI与人类基因组研究所(NationalHumanGenomeResearchInstitute)合作建立的,它是关于单碱基替换以及短插入、删除多态性的资源库。
因为开发dbSNP是为了补充和辅助GenBank,所以它包含了来自任何生物体的核苷酸序列。
dbSNP接收来自公共实验室和私人组织的提交。
dbSNP简介,每个提交至少包括以下10个主要数据元素:
侧翼序列上下文DNA或cDNA、等位基因、方法、种群、样本大小、特定种群的等位基因频率、特定种群的基因型频率、特定种群的杂合度估计、个体基因型、验证信息。
dbSNP最新版本公告:
可以通过不同的组件获取想要的信息,dbSNP的数据库结构,完整的数据以多种格式存于ftp站点:
ftp:
/ftp.ncbi.nih.gov/snp/数据库结构:
自版本125起,dbSNP的设计改为“中心和辐条”模型,其中dbSNP_main表格为车轮的中心,其存储着数据库的主要表格,而车轮的辐条是具体生物体的数据库,其包含着具体生物体的最新数据。
dbSNP使用标准的SQLDDL(DataDefinitionLanguage)为表格和索引创建模式表(schematables)、视图。
FTP数据库目录(ftp:
/ftp.ncbi.nih.gov/snp/database/)包含模式(schema)、数据、创建表格和索引的SQL语句。
dbSNP的数据库结构,shared_schema(ftp:
/ftp.ncbi.nih.gov/snp/database/shared_schema/)子目录包含dbSNP_main中表格的模式DDL(SQLDataDefinitionLanguage)。
shared_data(ftp:
/ftp.ncbi.nih.gov/snp/database/shared_data/)子目录包含所有生物体共享的dbSNP_main的数据。
organism_schema(ftp:
/ftp.ncbi.nih.gov/snp/database/organism_schema/)子目录包含每种生物体具体数据库的模式DDL的链接。
主表格的表索引提供于位于shared_schema子目录中的dbSNP_main_index_constraint.sql.gz和dbSNP_main_foreign_key.sql.gz文件。
每种生物体具体数据库的表索引位于organism_schema子目录中的organism_taxID_constraint.sql.gz和organism_taxID_index.sql.gz文件。
包含表格和列描述的数据字典位于http:
/www.ncbi.nlm.nih.gov/SNP/snp_db_list_table.cgi。
SNP的模式实体联系图位于ftp:
/ftp.ncbi.nih.gov/snp/database/b124/mssql/schema/erd_dbSNP.pdf。
创建dbSNP本地拷贝的资源需求,软件需求:
关系数据库软件,如Sybase,MicrosoftSQLserver,或Oracle。
NCBI的dbSNP运行于MSSQLserverversion2000。
数据加载工具:
将dbSNPFTP站点数据加载到一个数据库需要批量数据加载工具,如伴随Sybase的bcp(bulk-copy)实用程序或MSSQLserver的“bulkinsert”命令。
解压ftp文件的winzip/gzip压缩软件。
硬件需求:
计算机平台/OS、磁盘空间(500GB)、内存(4G)、Internet连接。
创建dbSNP本地拷贝的具体步骤见:
http:
/www.ncbi.nlm.nih.gov/books/NBK21088/,dbSNP所用的数据库,dbSNP目录结构,dbSNP目录结构,dbSNP包含了包含了许多目录,其中最有用的是:
organisms/、database/、specs/FTP的“organisms/”目录包含了一列有SNP数据的生物体目录,其按通用名后接NCBI分类id号来组织的。
点击特定的生物体子目录即可访问其中的ftp报表文件。
dbSNP目录结构,比如你点击了human_9606目录,那么你会发现人体组织子目录包含以下子目录:
ASN1_bin/ASN1_flat/XML/VCF/chr_rpts/gene_report/Genome_report/rs_fasta/ss_fasta/genotype_by_gene/genotype/haplotypes/database/misc/,其中包含具体生物体的表格、schema文件、共享schema文件、共享data文件。
dbSNP目录结构,/ASN1_bin:
ASN.1二进制格式的RefSNP文档综述(.bin)/ASN1_flat:
从ASN.1二进制格式而来的按染色体排序的RefSNPdocsum(.flat)/XML:
提供refSNP簇的具体查询信息以及NCBISNP交换格式的簇成员(.xml)/chr_rpts:
包含特定染色体上的RefSNPs的完整列表(.txt)/genotype:
以基因型交换XML格式提供提交的SNPs的submitter和基因型信息(.xml)/genome_reports:
包含生物体SNP密度分布的概要报告以及每个基因中的SNPs的概要报告(无后缀或.rpt或.log)/ss_fasta:
包含FASTA格式的生物体的所有可用的submittedSNP(ss)序列数据(.fas)/rs_fasta:
包含FASTA格式的人类所有可用的参考SNP(RS)序列数据(.fas)相关详细信息见ftp:
/ftp.ncbi.nih.gov/snp/00readme.txt,dbSNP目录结构,FTP的“database/”目录包含了模式(schema)、数据(data)、为dbSNP创建表和索引的SQL语句。
子目录有:
dbSNP目录结构,/shared_schema:
包含在dbSNP_main中的所有表格的模式DDL(SQLDataDefinitionLanguage)(.sql)/shared_data:
包含存在dbSNP_main中的所有生物体共享的数据(.bcp)/organism_schema:
包含每个生物体具体数据库的模式DDL的链接(实际上是存放各种生物体模式DDL的文件夹)(.sql)/organism_data:
包含每个生物体具体数据库的数据(.bcp)主表的表索引位于/shared_schema子目录下的dbSNP_main_index_constraint.sql.gz和dbSNP_main_foreign_key.sql.gz中每个生物体的具体数据库的表索引位于/organism_schema:
子目录下的organism_taxID_constraint.sql.gz和organism_taxID_index.sql.gzerd_dbSNP.pdf:
包含整个dbSNP数据库的实体联系图有关ftp站点目录的部分信息见:
http:
/www.ncbi.nlm.nih.gov/books/NBK44378/,dbSNP目录结构,说明:
在/organism_data“和”/shared_data“子目录下的.bcp文件通过使用域界定符“TAB”可以载入大多数电子表格程序。
FTP下的“specs/目录包含dbSNPdocsum数据结构的ASN.1和XML规格,以及基因型交换格式、基因型源文档、单倍体提交的规格(.asn,.xsd,.txt,.pdf,.doc,.xls)各种文件格式的详细介绍见:
ftp:
/ftp.ncbi.nih.gov/snp/00readme.txt,dbSNP数据,一条具体的SNP数据如图1所示,其中间一行代表多态性位点,R表示嘌呤,即G或A。
图1,IUPAC代号,等位基因的IUPAC代号,SNP主要信息网站,TSCwebsitehttp:
/snp.cshl.org/TSC(TheSNPConsortiumLtd.)是一个非营利性基金会,其组成目的是“发展在人类基因体中超过300万个以上的SNPs的数据、将数据收集成数据库,并且不以知识产权法律为限制(withoutintellectualpropertyrestrictions)、公开地向大众提供信息”。
2.dbSNPHomePagehttp:
/www.ncbi.nlm.nih.gov/SNP/index.html此网站是由NIH之下的NCBI所架设。
在网站具有非常庞大的数据库,提供许多不同项目的搜寻服务,且不局限于人类SNP信息,也提供其他生物的SNP信息。
值得一提的是,NCBI在网站中对SNP有简单的介绍,可帮助了解SNP的意义及在各种生物方面的应用。
是非常有用的数据库网站。
3HGBASE-HumanGenicBiAllelicSequenceshttp:
/hgbase.interactiva.de/4.UDB,TheUnifiedDatabasehttp:
/genecards.weizmann.ac.il/udb/5.SVD-SequenceVariationDatabaseprojecthttp:
/www2.ebi.ac.uk/mutations/6.HumanSNPDatabasehttp:
/www-genome.wi.mit.edu/snp/human/7.JSPNDatabasehttp:
/snp.ims.u-tokyo.ac.jp/,SNP的命名,关于snp位点的命名其实并不统一,大家在文献中一般用的都是习惯或者说惯用名称。
这里只介绍NCBI的rs号。
NCBI里对所有提交的snp进行分类考证之后,都会给出一个rs号,也可称作参考snp,并给出snp的具体信息,包括前后序列,位置信息,分布频率等,应该说用这个rs号是比较容易确定搞明白的。
一般写法是这样:
dbSNP后面跟featureID.featureID一般是rs/ss后跟7-8位数字,比如:
rs12345678或者dbSNP|rs12345678,dbSNP数据查询,dbSNP现已并入NCBI的Entrez系统,能使用与其他Entrez数据库(如PubMed和GenBank)相同的查询方式来查询数据。
其中可用的搜索词或字段见:
http:
/www.ncbi.nlm.nih.gov/snp/snp_schemaChange_b111.htmSNP数据库的数据内容分为两类:
一类是提交数据,即观察所得的原始序列变异;另一类是计算内容,即通过对原始提交数据的计算在每个“build”周期中产生的内容。
各种查询方式,快速查询,单记录查询,提交信息查询,批量查询,一次能获取超过20000条的记录,部分查询方式介绍,SNP提交信息查询方式:
基于提交记录的查询方式,可以通过实验室(提交人)、新数据(亦称新批量)、用于鉴定变异的方法、感兴趣的种群、出版信息来选择SNPs。
注意这里的关于数据库提示信息,部分查询方式介绍,dbSNP批量查询方式:
使用一组变异IDs(包括RefSNP(rs)IDs,SubmittedSNP(ss)IDs和LocalSNPIDs)来生成各种SNP报表。
标记间查询方式:
如果你对两个STS(sequencetaggedsite,序列标签位点)标记间的特定基因感兴趣,可以使用这种方式。
位点信息查询方式:
现已被EntrezGene方式所取代。
此外还有单记录查询方式、Entrez检索器方式等。
STS:
是一段短的DNA序列,通常长度在100到500bp,易于识别,仅存在于待研究的染色体或基因组中。
任何一个惟一的DNA序列均可作为STS.NCBI对STS的解释见:
http:
/www.ncbi.nlm.nih.gov/projects/genome/probe/doc/TechSTS.shtml,SNP基因序列的检索,以检索NAT2的不同SNP的基因序列为例(Entrez检索器方式):
(1)进入dbSNP数据库主页http:
/www.ncbi.nlm.nih.gov/projects/SNP/,选择“SNP”,SNP基因序列的检索(续),
(2)在for框输入“NAT2”,点击“GO”进行搜索,输入检索的基因名字,点击“GO”进行检索,SNP基因序列的检索(续),(3)搜索了一下,目前人类的NAT2SNP数据库记录有2555条,如下图所示,每一条你都可以点进去看它的具体情况。
检索结果列表,SNP名字或编号,SNP基因序列的检索(续),(4)以rs193927898为例,你点进去后,出现下图的页面,里面是SNP数据库中关于这个SNP的全部信息,从里面,你大致可以获取SNP的位置,其上下游的核苷酸侧翼序列信息,多群体报道的情况,SNP提交情况,不同群体的杂合度报道参考信息,SNP基因序列的检索(续),SNP基因序列的检索(续),DNA或RNA的5端和3端示意图,dbSNP数据库的rs_fasta格式解读,说明:
gnl:
object-type=generaldbSNP:
Databasenamers193927898:
dbSNPrs#allelePos=151:
OffsetofSNPinsequencetotallen=301:
Totallengthofsequencetaxid=3702:
taxIDsnpClass=1:
VariationClassalleles=A/T:
Listofalleles,snpClass取值解释,Thankyou!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- dbSNP 数据库