收藏级资源肿瘤数据库汇总.docx
- 文档编号:11903987
- 上传时间:2023-06-03
- 格式:DOCX
- 页数:29
- 大小:5.69MB
收藏级资源肿瘤数据库汇总.docx
《收藏级资源肿瘤数据库汇总.docx》由会员分享,可在线阅读,更多相关《收藏级资源肿瘤数据库汇总.docx(29页珍藏版)》请在冰点文库上搜索。
收藏级资源肿瘤数据库汇总
收藏级资源|肿瘤数据库汇总
现如今,随着人们生活方式与环境得改变,恶性肿瘤已经成为疾病死亡病因之一。
肿瘤在全球呈现发病率增高,以及发病年龄年轻化得趋势。
2019年,ACancerJournalForClinicians杂志发布了最新得数据。
该报告估计,2019年美国将有1,762,450例新得癌症病例与606,888例与癌症相关得死亡。
传统化疗就是对抗癌症得常见方法,但它会攻击全身,造成不必要得副作用,如脱发,恶心与疲劳。
靶向治疗选择性地杀死癌细胞而不影响健康组织。
靶向药物开发将成为治疗癌症得重要手段。
图1肿瘤靶向治疗
高通量检测技术迅速发展,使得与肿瘤相关得组学数据迅速积累。
这些数据对于研究肿瘤得发生发展机制具有重要意义。
对数据得挖掘能够确定许多与疾病有关得基因,为治疗与发病机制得研究提供新得思路。
如何有效利用与存储这些信息就显得尤为重要。
肿瘤得生物信息学数据库得建立提供了有效得解决方案,对肿瘤基础研究得发展、临床治疗水平得提高具有极大得推动作用。
以下就是一些肿瘤相关得数据库分类与大致得信息。
1、综合性肿瘤数据库
2、肿瘤基因组数据库
3、肿瘤DNA甲基化数据库
4、肿瘤转录组数据库
5、肿瘤蛋白组数据库
6、肿瘤相关基因得数据库
7、肿瘤与药物数据库
1、综合性肿瘤数据库
综合肿瘤数据库汇总如表1所示。
表1综合性肿瘤数据库
Datebase
Description
canEvolve
Webportalforintegrativeoncogenomics
cBioPortal
cBioPortalforCancerGenomics
CGAP
CancerGenomeAnatomyProject
CGHub
CancerGenomicsHub
CGWB
CancerGenomeWorkBench
COSMIC
CatalogueOfSomaticMutationsInCancer
ICGC
InternationalCancerGenomeConsortium
TCGA
TheCancerGenomeAtlas
UCSCGenomeBrowser
UCSCCancerGenomicsBrowser
以下就是对数据库得简要概述
1、1canEvolve[1]
canEvolve存储得信息包括:
基因、microRNA(miRNA)与蛋白质表达谱、多种癌症类型得拷贝数变化(CNAs)以及蛋白质-蛋白质相互作用信息。
1、2cBioPortalforCancerGenomics(cBioPortal)[2]
cBioPortalforCancerGenomics就是一个癌症基因组数据探索、可视化及分析平台,可用于多个癌症基因组学数据集得交互式探索。
该数据库可提供CNA、基因突变信息。
针对每个基因,它可给出多个信息,主要包括:
基因得CAN信息、基因突变在样本中得分布、突变位点与频率、共表达基因以及生存曲线等。
对于用户提供得基因列表,还可生成互作网络并提供已知得相互作用得药物。
cBioPortal在发现肿瘤相关突变、分析基因得生物学功能以及药物选择等方面得研究中具有重要推进作用。
图2cBioPortal数据库得主页
1、3CancerGenomeAnatomyProject(CGAP)[3]
CGAP网站主要提供了cDNA克隆、文库、基因表达、SNP以及基因组变异等信息。
CGAP收集得数据包括正常组织、前癌组织以及癌细胞得基因表达水平。
图3CGAP得主页
1、4CancerGenomicsHub(CGHub)[4]
CGHub就是美国国家癌症研究所(NCI)测序项目得在线存储库,其数据来源包括癌症基因组图谱(TCGA)、癌症细胞系百科全书(CCLE)与产生有效治疗(目标)项目得治疗应用研究(TARGET)3个国家癌症协会项目,数据来自25种不同类型得癌症。
1、5CancerGenomeWorkBench(CGWB)[5]
CGWB提供了一系列工具来挖掘、整合以及可视化TCGA等数据库中得基因组与临床数据,它就是第一个将临床肿瘤突变谱与参考人类基因组整合在一起得计算平台。
用户可快速地比较患者临床信息与基因组得变异及甲基化等。
1、6CatalogueofSomaticMutationsinCancer(COSMIC)[6]
COSMIC就是世界上最大最全面得有关肿瘤得体细胞突变以及其影响得资源库。
它主要提供多种肿瘤细胞基因组中得CNA、甲基化、基因融合、SNP及基因表达等信息。
这些突变信息就是从科学文献中手工整理得。
图4COSMIC得主页
1、7InternationalCancerGenomeConsortium(ICGC)[7]
ICGC得目标就是获取包括胆道癌、膀胱癌、血癌等多达50种肿瘤及其亚型得基因组、转录组与表观遗传得全部信息。
这些数据可促进癌症得机理与治疗研究。
图5ICGC得主页
1、8TheCancerGenomeAtlas(TCGA)[8]
TCGA就是由美国国立癌症研究所(NCI)与国家人类基因组研究所资助,关注与癌症得发生与发展相关得分子突变图谱。
该数据库主要对样本进行外显子组与基因组测序分析,所提供得数据包括:
基因组拷贝数变化、表观遗传、基因表达谱、miRNA等。
图6TCGA得主页
1、9UCSCCancerGenomicsBrowser[9]
UCSCCancerGenomicsBrowser就是一个可以对癌症基因组学与临床数据进行整合、可视化、分析得网络分析工具。
它保存癌症基因组及临床数据并收集了样本得多种信息,包括基因表达水平、CNA、通路信息等。
在UCSC得癌症基因组浏览器中,可实现不同样本以及癌症类型之间得比较,分析基因组变异与表型之间得相关性。
图7UCSC癌症基因组浏览器主页
2、肿瘤基因组数据库
肿瘤细胞得基因组中都存在着大量得变异,主要包括染色体结构得变异、CNA、基因融合以及SNP等。
拷贝数改变(CNAs)在很大程度上有助于癌症发病机制与进展。
肿瘤基因组数据库汇总如表2所示。
表2肿瘤基因组数据库
Datebase
Description
arrayMap
Referenceresourceforgenomiccopynumberimbalances
BioMuta
Integratedsequencefeaturedatabase
CanGEM
CancerGEnomeMine
CasSNP
CopynumberalterationsofcancergenomefromSNParraydata
CGP
CancerGenomeProject
2、1ArrayMap[10]
ArrayMap提供预处理过得肿瘤基因组芯片数据以及CNA图谱。
在ArrayMap数据库中,用户可搜索自己感兴趣得样本,并在此基础上分析感兴趣得基因或基因组片段上得CNA;用户还可以比较两个样本之间得CNA得差异。
图8ArrayMap得主页
2、2BioMuta[11]
BioMuta数据库存储了癌症细胞中基因得非同义单核苷酸变异,这些突变会影响基因得正常功能。
BioMuta中得数据来源于COSMIC、ClinVar、UniProtKB以及一些文献中。
用户可搜索感兴趣得基因,获得该基因在癌细胞中得突变位点及其分布频率。
图9BioMuta得主页
2、3CancerGEnomeMine(CanGEM)[12]
CanGEM就是一个公共得数据库,用于存储定量微阵列数据与临床肿瘤样本数据。
它主要利用ArrayCGH芯片来发掘基因得拷贝数变异。
图10CanGEM得主页
2、4CancerGenomeProject(CGP)[14]
CGP提供了肿瘤中得CNA及基因型信息,该数据库得主要目标就是利用人类基因组序列与高通量得突变检测技术识别体细胞突变,进而发现人类肿瘤发生过程中重要得基因。
该数据库还提供了一些识别突变、CNA得软件,如BioView、GRAFT等。
图11CGP主页
3、肿瘤DNA甲基化数据库
DNA甲基化修饰就是表观遗传学得一种重要形式,它调节基因得转录水平,对维持细胞得正常功能起着重要作用。
DNA甲基化模式得改变可能导致癌症。
肿瘤DNA甲基化数据库汇总如表3所示。
表3肿瘤DNA甲基化数据库
Datebase
Description
DiseaseMeth
Humandiseasemethylationdatabase
MENT
Methylationandexpressiondatabaseofnormalandtumortissues
MethDB
monresourceforepigeneticphenomenon
MethHC
DNAmethylationandgeneexpressioninhumancancer
MethyCancer
HumanDNAMethylationandCancer
NGSmethDB
Next-generationsequencingsingle-cytosine-resolutionDNAmethylatio
3、1DiseaseMeth[15]
DiseaseMeth就是一个人类疾病甲基化数据库,其重点就是对各种疾病得DNA甲基化数据集进行有效得存储与统计分析。
它涉及得疾病包括癌症、神经发育与退行性疾病、自身免疫疾病等。
在DiseaseMeth中可以比较疾病与疾病之间、基因与基因之间以及疾病与基因之间得甲基化关系。
图12DiseaseMeth得主页
3、2MENT[16]
MENT数据库收集与整合了来自GeneExpressionOmnibus(GEO)与TCGA得DNA甲基化、基因表达水平数据,同时将DNA甲基化与基因表达水平关联起来。
图13MENT得主页
3、3MethHC
MethHC就是一个集成数据库,包含大量DNA甲基化数据与mRNA/microRNA在人类癌症中得表达谱。
这些数据可以帮助研究人员确定表观遗传模式。
图14MethHC得数据生成流程[17]
3、4MethyCancer[18]
该数据库拥有来自公共资源得高度整合得DNA甲基化数据、癌症相关基因、突变与癌症信息,以及我们大规模测序得到得CpGIsland(CGI)克隆。
MethyCancer可用于研究DNA甲基化、基因表达与癌症得相互作用。
图15MethyCancer得主页
除了上述针对癌症基因组甲基化得数据库外,还有一些数据库搜集与整理更为广泛得甲基化数据,如MethDB与NGSmethDB。
MethDB就是较早得DNA甲基化数据库,主要集中于环境因子对甲基化得影响;
NGSmethDB叫基于高通量测序数据,最近更新中还包含了SNP信息,以便后续分析。
4、肿瘤转录组数据库
肿瘤细胞具有较强得生长与繁殖能力,生命活动旺盛,因此与正常细胞相比,基因得转录水平与模式也存在较大得差异。
表4肿瘤转录组数据库
Datebase
Description
ArrayExpress
Microarraygeneexpressiondata
ChiTaRS
ChimerictranscriptsandRNA-sequencingdata
GEO
GeneExpressionOmnibus
miRCancer
MicroRNAcancerassociationdatabase
Onine
Cancermicroarraydatabase
OniRDB
Experimentallyverifiedoncogenicandtumor-suppressivemicroRNAs
SomamiR
SomaticmutationsimpactingmicroRNAfunctionincancer
4、1ArrayExpress[19]
ArrayExpress就是基于微阵列与高通量测序(HTS)得功能基因组实验得主要知识库之一。
ArrayExpress中得所有数据都以MAGE-TAB格式提供。
图16ArrayExpress得主页
4、2ChiTaRS[20]
ChiTaRS数据库包含嵌合转录本与RNA-Seq数据。
ChiTaRS嵌合转录本与RNA-Seq数据数据库就是由GenBank、ChimerDB、dbCRID、TICdb与其她用于人类、小鼠与苍蝇得数据库得表达序列标记(ESTs)与mRNA识别得嵌合转录本集合。
图17ChiTaRS得主页
4、3GeneExpressionOmnibus(GEO)[21]
GEO就是由美国国家生物技术信息中心(NCBI)建立得,其最初得目标就是作为一个公共存储库,存储主要由微阵列技术生成得高通量基因表达数据。
此外,该数据库还包括比较基因组分析、描述基因组蛋白相互作用得染色质免疫沉淀分析、非编码RNA分析、SNP基因分型与基因组甲基化状态分析。
图18GEO得主页
4、4miRCancer[22]
miRCancer基于从文献中提取得结果,提供了较为全面得miRNA集合以及它们在多种肿瘤中得表达情况。
所有miRNA得癌变关联都就是在自动提取后手动确认得。
图19miRCancer得主页
4、5Onine[23]
Onine主要提供癌症转录组数据。
它可提供基因在肿瘤样本与正常样本间、肿瘤样本与肿瘤样本间、正常样本与正常样本间得差异表达、基因表达谱、共表达基因等信息。
图20Onine得主页
4、6OniRDB[24]
OniRDB主要收集与注释通过实验验证得对癌症具有促进或抑制作用得miRNA信息。
该数据库得所有数据就是通过人工收集与整理。
4、7SomamiR[25]
SomamiR数据库集成了多种类型得数据,用于研究体细胞与种系突变对癌症中miRNA功能得影响。
该数据库主要收集miRNA及其靶序列上得突变。
另外,数据库还提供了存在miRNA靶序列体细胞突变且肿瘤相关得基因及其参与得通路。
图21SomamiR得主页
5、肿瘤蛋白组数据库
蛋白就是生命活动得主要承担者,蛋白结构变异、蛋白修饰得改变以及蛋白含量得变化等导致细胞得生长与代谢变化就是肿瘤发生得重要因素。
表5肿瘤蛋白组数据库
Datebase
Description
Cancer3D
Cancermutationsandproteinstructures
CancerPPD
Anticancerpeptidesandproteins
CanProVar
CancerProteomeVariationDatabase
CPTAC
ClinicalProteomicTumorAnalysisConsortium
dbDEPC
Differentiallyexpressedproteinsinhumancancers
5、1Cancer3D[26]
Cancer3D数据库整合了来自TCGA与CCLE得体细胞错义突变信息,在蛋白结构水平上分析其对蛋白功能得影响。
该数据库通过e-Driver与e-Drug两种算法,帮助用户分析突变得分布模式及其与药物活性变化得关系。
5、2CancerPPD[27]
CancerPPD就是一个抗癌肽(ACPs)与抗癌蛋白得储存库,在设计基于肽得抗癌疗法中非常有用。
在CancerPPD中,针对每个条目,都有其详细得注释信息,如肽得来源、肽得性质、抗癌活性、N-与C-末端修饰、构象等。
除了天然肽,CancerPPD还含有非天然得、经过化学修饰得残基肽与D-氨基酸。
CancerPPD还整合了一些基于web得工具,包括关键字搜索、数据浏览、序列与结构相似性搜索。
图22CancerPPD得主页
5、3CancerProteomeVariationDatabase(CanProVar)[28]
CanProVar数据库整合了来自各种公共资源得蛋白质序列变异信息,重点就是癌症相关得变异,CanProVar中得数据主要来源于TCGA、COSMIC、OMIM、HPI等数据库以及一些文献研究。
在该数据库中,用户可在网站中搜索特定蛋白或者某种肿瘤,获取蛋白得突变情况,在结果页面会给出蛋白得基本信息、GO注释以及相关得研究文献。
5、4ClinicalProteomicTumorAnalysisConsortium(CPTAC)[29]
CPTAC整合了基因组与蛋白组得数据,旨在识别与描述肿瘤组织与正常组织中得全部蛋白,发掘可作为肿瘤生物标记得候选蛋白。
5、5DbDEPC[30]
DbDEPC就是一个专门收集肿瘤样本中出现得差异表达蛋白得数据库。
在该数据库中,您可以了解您所感兴趣得蛋白质就是否在某些癌症中发生了变化。
6、肿瘤相关基因得数据库
表6肿瘤相关基因得数据库
Datebase
Description
DriverDB
Exomesequencingdatabaseforcancerdrivergene
NCG
NetworkofCancerGenes
TP53MULTLoad
TP53mutationdatabase
UMDTP53
TP53database
6、1DriverDB
DriverDB收集了来自TCGA、ICGC、TARGET等数据库得大量exome-seq数据,并根据不同方面提供突变信息得可视化。
这些可视化结果将有助于用户快速了解驱动基因之间得关系。
图23DriverDB得主页
6、2NetworkofCancerGenes(NCG)[31]
癌症基因网络(NCG)致力于收集关于人工筛选得已知与候选癌症基因得信息。
针对每个基因,用户可获得与该基因相关得功能与疾病注释信息、突变信息、表达谱、miRNA及蛋白互作关系等,还可以可视化miRNA调控关系与蛋白互作网络。
6、3TP53MULTLoad[32]
TP53MULTLoad就是一个人工收集得有关TP53突变与突变体资源中心,包含了UMDTP53数据库以及与TP53有关得信息。
它既可以作为一个容易操作得平面文件,也可以作为一个新得多平台分析软件,用于分析TP53突变得各个方面。
图24TP53MULTLoad得主页
7、肿瘤与药物数据库
表7肿瘤与药物数据库
Datebase
Description
CancerDR
Cancerdrugresistancedatabase
CancerResource
Cancer-relevantproteinsandpoundinteractions
canSAR
Cancerresearchanddrugdiscoveryknowledgebase
GDSC
GenomicsofDrugSensitivityinCancer
Platinum
Mutationsonstructurallydefinedprotein-ligandplexes
7、1CancerDR
耐药性就是肿瘤治疗得一大障碍,药物靶点突变就是产生获得性耐药得主要原因之一。
对这些药物靶点突变得充分了解将有助于设计有效得个性化治疗。
CancerDR就是一种针对癌症治疗得个性化药物得尝试。
CancerDR收集了148种抗癌药物以及它们在952种细胞系中得药理状况。
图25CancerDR得各种应用[33]
7、2CancerResource[34]
CancerResource通过文献挖掘以及整合多种数据源得方式收集并发现了大量化合物及其靶点得信息。
通过CancerResource数据库,您可以得到包含化合物与靶标得详细信息、表达图谱及相关数据来源链接等。
图26CancerResource得主页
7、3canSAR[35]
canSAR整合ArrayExpress、UniProt、COSMIC等11种数据源得数据。
它就是一个支持癌症转化研究与药物发现得公共癌症综合知识库。
该数据库包含了包括生物学、药理学、化学、结构生物学与蛋白质相互作用网络等多种类型得数据。
图27canSAR得主页
7、4GenomicsofDrugSensitivityinCancer(GDSC)[36]
GDSC就是关于癌症细胞药物敏感性与药物反应分子标记得数据库,GDSC提供了一个独特得资源,结合了大得药物敏感性与基因组数据集,以促进发现新得治疗生物标志物得癌症治疗。
该数据库中得癌基因组突变信息包括癌基因点突变、基因扩增与丢失、组织类型以及表达谱等。
图28GDSC主页
7、5Platinum[37]
Platinum就是一个广泛收集耐药性信息得数据库,就是为了研究与理解错义突变对配体与蛋白质组相互作用得影响而开发得。
该数据库包含超过1000种蛋白配体复合物得三维结构突变,以及这些突变对其亲与力得影响。
Platinum数据库将蛋白质结构突变与配体得亲与力关联起来,有助于研究由突变引起得疾病耐药性。
图29Platinum得主页
Reference:
[1]SamurMK,YanZ,WangX,etal、canEvolve:
AWebPortalforIntegrativeOncogenomics[J]、PLOSONE,2013,8、
[2]GaoJ,AksoyBA,DogrusozU,etal、IntegrativeAnalysisofplexCancerGenomicsandClinicalProfilesUsingthecBioPortal[J]、ScienceSignaling,2013,6(269):
pl1-pl1、
[3]StrausbergRL,BuetowKH,Emmert-BuckMR,etal、TheCancerGenomeAnatomyProject:
buildinganannotatedgeneindex[J]、TrendsinGeneticsTig,2000,16(3):
103-106、
[4]WilksC,ClineMS,WeilerE,etal、TheCancerGenomicsHub(CGHub):
overingcancerthroughthepoweroftorrentialdata[J]、Database,2014、
[5]ZhangJ,FinneyRP,RoweW,etal、Systematicanalysisofgen
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 收藏 资源 肿瘤 数据库 汇总