书签分享收藏举报版权申诉 / 39

立即下载加入VIP,免费下载

当前位置：首页 > 幼儿教育 > 幼儿读物 > dbSNP数据库.ppt

dbSNP数据库.ppt

文档编号：13197890
上传时间：2023-06-12
格式：PPT
页数：39
大小：2.75MB

dbSNP数据库.ppt

《dbSNP数据库.ppt》由会员分享，可在线阅读，更多相关《dbSNP数据库.ppt（39页珍藏版）》请在冰点文库上搜索。

dbSNP数据库.ppt

dbSNP数据库,SNP（SingleNucleotidePolymorphism）综述,有的人吸烟喝酒却长寿，也有人自幼就病痛缠身；同一种治疗肿瘤的药物对一些人非常有效，对另一些人则完全无效。

这是为什么？

答案是他们基因组中存在的差异。

这种差异很多表现为单个碱基上的变异，也就是单核苷酸的多态性（SNP）。

2001年二月，美、英等国宣布完成了人类基因体定序及分析初稿，这项划时代的创举将人类基因体科技带入新的境界，也连带开启了分子生物学、蛋白质体学、药物基因体学等新研究趋向。

人类基因译码初稿的完成，象征着人类基因体解读计划的第一阶段已告一段落。

但接下来对于基因定序数据的检测与分析，以及运用这份草图来寻找个体间基因序列差异性的任务，才刚刚开始。

了解个体间基因序列差异性的研究，不但对族群遗传学、演化学的研究相当重要，在利用连锁不平衡（LinkageDisequilibrium）进行复杂性遗传疾病（multiplegenesdiseases）的相关性研究上也扮演重要的角色。

SNP概念及其类型,SNP，念法为snIp，是SingleNucleotidePolymorphism的英文简称，其中文译为“单一核苷酸多型性”，意思是“DNA序列中的单一碱基对（basepair）变异”，也就是DNA序列中A、T、C、G的改变，即基因组的一个特异和定位的位点出现两个或多个的核苷酸可能性,它是人类可遗传的变异中最常见的一种。

占所有已知多态性的90%以上。

SNP在人类基因组中广泛存在，平均每5001000个碱基对中就有1个，估计其总数可达300万个甚至更多。

目前科学界已发现了约400万个SNPs。

SNP所表现的多态性只涉及到单个碱基的变异，这种变异可由单个碱基的转换（transition）或颠换（transversion）所引起，也可由碱基的插入或缺失所致。

但通常所说的SNP并不包括后两种情况。

DNA分子示意图,DNA变异类型,部分密码子：

UAU酪氨酸，UCU丝氨酸，UAC酪氨酸，UUG亮氨酸，UGC半胱氨酸，UUU苯丙氨酸，AUG甲硫氨酸,编码连,基因示意图,基因的表达过程,一一对应,一一对应,基因表达,一一对应,基因的表达,碱基的互补配对原则T-AA-UC-G保证了遗传信息准确无误地表达。

模板链（无义链）,非模板链（有义链或编码连）,密码子,密码子表,dbSNP简介,dbSNP：

databaseofSNP（Wikipedia：

TheSingleNucleotidePolymorphismDatabase）单核苷酸多态性数据库dbSNP（http:

/www3.ncbi.nlm.nih.gov/SNP/）是由NCBI与人类基因组研究所（NationalHumanGenomeResearchInstitute）合作建立的，它是关于单碱基替换以及短插入、删除多态性的资源库。

因为开发dbSNP是为了补充和辅助GenBank,所以它包含了来自任何生物体的核苷酸序列。

dbSNP接收来自公共实验室和私人组织的提交。

dbSNP简介,每个提交至少包括以下10个主要数据元素：

侧翼序列上下文DNA或cDNA、等位基因、方法、种群、样本大小、特定种群的等位基因频率、特定种群的基因型频率、特定种群的杂合度估计、个体基因型、验证信息。

dbSNP最新版本公告：

可以通过不同的组件获取想要的信息,dbSNP的数据库结构,完整的数据以多种格式存于ftp站点：

ftp:

/ftp.ncbi.nih.gov/snp/数据库结构：

自版本125起，dbSNP的设计改为“中心和辐条”模型，其中dbSNP_main表格为车轮的中心，其存储着数据库的主要表格，而车轮的辐条是具体生物体的数据库，其包含着具体生物体的最新数据。

dbSNP使用标准的SQLDDL（DataDefinitionLanguage）为表格和索引创建模式表（schematables）、视图。

FTP数据库目录（ftp:

/ftp.ncbi.nih.gov/snp/database/）包含模式（schema）、数据、创建表格和索引的SQL语句。

dbSNP的数据库结构,shared_schema（ftp:

/ftp.ncbi.nih.gov/snp/database/shared_schema/）子目录包含dbSNP_main中表格的模式DDL（SQLDataDefinitionLanguage）。

shared_data（ftp:

/ftp.ncbi.nih.gov/snp/database/shared_data/）子目录包含所有生物体共享的dbSNP_main的数据。

organism_schema（ftp:

/ftp.ncbi.nih.gov/snp/database/organism_schema/）子目录包含每种生物体具体数据库的模式DDL的链接。

主表格的表索引提供于位于shared_schema子目录中的dbSNP_main_index_constraint.sql.gz和dbSNP_main_foreign_key.sql.gz文件。

每种生物体具体数据库的表索引位于organism_schema子目录中的organism_taxID_constraint.sql.gz和organism_taxID_index.sql.gz文件。

包含表格和列描述的数据字典位于http:

/www.ncbi.nlm.nih.gov/SNP/snp_db_list_table.cgi。

SNP的模式实体联系图位于ftp:

/ftp.ncbi.nih.gov/snp/database/b124/mssql/schema/erd_dbSNP.pdf。

创建dbSNP本地拷贝的资源需求,软件需求：

关系数据库软件，如Sybase,MicrosoftSQLserver,或Oracle。

NCBI的dbSNP运行于MSSQLserverversion2000。

数据加载工具：

将dbSNPFTP站点数据加载到一个数据库需要批量数据加载工具，如伴随Sybase的bcp（bulk-copy）实用程序或MSSQLserver的“bulkinsert”命令。

解压ftp文件的winzip/gzip压缩软件。

硬件需求：

计算机平台/OS、磁盘空间（500GB）、内存（4G）、Internet连接。

创建dbSNP本地拷贝的具体步骤见：

http:

/www.ncbi.nlm.nih.gov/books/NBK21088/,dbSNP所用的数据库,dbSNP目录结构,dbSNP目录结构,dbSNP包含了包含了许多目录，其中最有用的是：

organisms/、database/、specs/FTP的“organisms/”目录包含了一列有SNP数据的生物体目录，其按通用名后接NCBI分类id号来组织的。

点击特定的生物体子目录即可访问其中的ftp报表文件。

dbSNP目录结构,比如你点击了human_9606目录，那么你会发现人体组织子目录包含以下子目录：

ASN1_bin/ASN1_flat/XML/VCF/chr_rpts/gene_report/Genome_report/rs_fasta/ss_fasta/genotype_by_gene/genotype/haplotypes/database/misc/,其中包含具体生物体的表格、schema文件、共享schema文件、共享data文件。

dbSNP目录结构,/ASN1_bin:

ASN.1二进制格式的RefSNP文档综述（.bin）/ASN1_flat:

从ASN.1二进制格式而来的按染色体排序的RefSNPdocsum（.flat）/XML：

提供refSNP簇的具体查询信息以及NCBISNP交换格式的簇成员（.xml）/chr_rpts：

包含特定染色体上的RefSNPs的完整列表（.txt）/genotype：

以基因型交换XML格式提供提交的SNPs的submitter和基因型信息（.xml）/genome_reports：

包含生物体SNP密度分布的概要报告以及每个基因中的SNPs的概要报告（无后缀或.rpt或.log）/ss_fasta：

包含FASTA格式的生物体的所有可用的submittedSNP（ss）序列数据（.fas）/rs_fasta：

包含FASTA格式的人类所有可用的参考SNP（RS）序列数据（.fas）相关详细信息见ftp:

/ftp.ncbi.nih.gov/snp/00readme.txt,dbSNP目录结构,FTP的“database/”目录包含了模式（schema）、数据（data）、为dbSNP创建表和索引的SQL语句。

子目录有：

dbSNP目录结构,/shared_schema：

包含在dbSNP_main中的所有表格的模式DDL（SQLDataDefinitionLanguage）（.sql）/shared_data：

包含存在dbSNP_main中的所有生物体共享的数据（.bcp）/organism_schema：

包含每个生物体具体数据库的模式DDL的链接（实际上是存放各种生物体模式DDL的文件夹）（.sql）/organism_data：

包含每个生物体具体数据库的数据（.bcp）主表的表索引位于/shared_schema子目录下的dbSNP_main_index_constraint.sql.gz和dbSNP_main_foreign_key.sql.gz中每个生物体的具体数据库的表索引位于/organism_schema：

子目录下的organism_taxID_constraint.sql.gz和organism_taxID_index.sql.gzerd_dbSNP.pdf:

包含整个dbSNP数据库的实体联系图有关ftp站点目录的部分信息见：

http:

/www.ncbi.nlm.nih.gov/books/NBK44378/,dbSNP目录结构,说明：

在/organism_data“和”/shared_data“子目录下的.bcp文件通过使用域界定符“TAB”可以载入大多数电子表格程序。

FTP下的“specs/目录包含dbSNPdocsum数据结构的ASN.1和XML规格，以及基因型交换格式、基因型源文档、单倍体提交的规格（.asn,.xsd,.txt,.pdf,.doc,.xls）各种文件格式的详细介绍见:

ftp:

/ftp.ncbi.nih.gov/snp/00readme.txt,dbSNP数据,一条具体的SNP数据如图1所示，其中间一行代表多态性位点，R表示嘌呤，即G或A。

图1,IUPAC代号,等位基因的IUPAC代号,SNP主要信息网站,TSCwebsitehttp:

/snp.cshl.org/TSC（TheSNPConsortiumLtd.）是一个非营利性基金会，其组成目的是“发展在人类基因体中超过300万个以上的SNPs的数据、将数据收集成数据库，并且不以知识产权法律为限制（withoutintellectualpropertyrestrictions）、公开地向大众提供信息”。

2.dbSNPHomePagehttp:

/www.ncbi.nlm.nih.gov/SNP/index.html此网站是由NIH之下的NCBI所架设。

在网站具有非常庞大的数据库，提供许多不同项目的搜寻服务，且不局限于人类SNP信息，也提供其他生物的SNP信息。

值得一提的是，NCBI在网站中对SNP有简单的介绍，可帮助了解SNP的意义及在各种生物方面的应用。

是非常有用的数据库网站。

3HGBASE-HumanGenicBiAllelicSequenceshttp:

/hgbase.interactiva.de/4.UDB，TheUnifiedDatabasehttp:

/genecards.weizmann.ac.il/udb/5.SVD-SequenceVariationDatabaseprojecthttp:

/www2.ebi.ac.uk/mutations/6.HumanSNPDatabasehttp:

/www-genome.wi.mit.edu/snp/human/7.JSPNDatabasehttp:

/snp.ims.u-tokyo.ac.jp/,SNP的命名,关于snp位点的命名其实并不统一，大家在文献中一般用的都是习惯或者说惯用名称。

这里只介绍NCBI的rs号。

NCBI里对所有提交的snp进行分类考证之后，都会给出一个rs号，也可称作参考snp，并给出snp的具体信息，包括前后序列，位置信息，分布频率等，应该说用这个rs号是比较容易确定搞明白的。

一般写法是这样:

dbSNP后面跟featureID.featureID一般是rs/ss后跟7-8位数字，比如:

rs12345678或者dbSNP|rs12345678,dbSNP数据查询,dbSNP现已并入NCBI的Entrez系统，能使用与其他Entrez数据库（如PubMed和GenBank）相同的查询方式来查询数据。

其中可用的搜索词或字段见：

http:

/www.ncbi.nlm.nih.gov/snp/snp_schemaChange_b111.htmSNP数据库的数据内容分为两类：

一类是提交数据，即观察所得的原始序列变异；另一类是计算内容，即通过对原始提交数据的计算在每个“build”周期中产生的内容。

各种查询方式,快速查询,单记录查询,提交信息查询,批量查询，一次能获取超过20000条的记录,部分查询方式介绍,SNP提交信息查询方式：

基于提交记录的查询方式，可以通过实验室（提交人）、新数据（亦称新批量）、用于鉴定变异的方法、感兴趣的种群、出版信息来选择SNPs。

注意这里的关于数据库提示信息,部分查询方式介绍,dbSNP批量查询方式：

使用一组变异IDs（包括RefSNP（rs）IDs,SubmittedSNP（ss）IDs和LocalSNPIDs）来生成各种SNP报表。

标记间查询方式：

如果你对两个STS（sequencetaggedsite,序列标签位点）标记间的特定基因感兴趣，可以使用这种方式。

位点信息查询方式：

现已被EntrezGene方式所取代。

此外还有单记录查询方式、Entrez检索器方式等。

STS：

是一段短的DNA序列，通常长度在100到500bp，易于识别，仅存在于待研究的染色体或基因组中。

任何一个惟一的DNA序列均可作为STS.NCBI对STS的解释见：

http:

/www.ncbi.nlm.nih.gov/projects/genome/probe/doc/TechSTS.shtml,SNP基因序列的检索,以检索NAT2的不同SNP的基因序列为例（Entrez检索器方式）：

（1）进入dbSNP数据库主页http:

/www.ncbi.nlm.nih.gov/projects/SNP/,选择“SNP”,SNP基因序列的检索（续）,

（2）在for框输入“NAT2”，点击“GO”进行搜索,输入检索的基因名字，点击“GO”进行检索,SNP基因序列的检索（续）,（3）搜索了一下，目前人类的NAT2SNP数据库记录有2555条，如下图所示，每一条你都可以点进去看它的具体情况。

检索结果列表,SNP名字或编号,SNP基因序列的检索（续）,（4）以rs193927898为例，你点进去后，出现下图的页面，里面是SNP数据库中关于这个SNP的全部信息，从里面，你大致可以获取SNP的位置，其上下游的核苷酸侧翼序列信息，多群体报道的情况，SNP提交情况，不同群体的杂合度报道参考信息,SNP基因序列的检索（续）,SNP基因序列的检索（续）,DNA或RNA的5端和3端示意图,dbSNP数据库的rs_fasta格式解读,说明：

gnl:

object-type=generaldbSNP:

Databasenamers193927898:

dbSNPrs#allelePos=151:

OffsetofSNPinsequencetotallen=301:

Totallengthofsequencetaxid=3702:

taxIDsnpClass=1:

VariationClassalleles=A/T:

Listofalleles,snpClass取值解释,Thankyou!