数据库行业研究报告.docx
- 文档编号:3404349
- 上传时间:2023-05-05
- 格式:DOCX
- 页数:17
- 大小:31.01KB
数据库行业研究报告.docx
《数据库行业研究报告.docx》由会员分享,可在线阅读,更多相关《数据库行业研究报告.docx(17页珍藏版)》请在冰点文库上搜索。
数据库行业研究报告
2021年数据库行业研究报告
一、数据库:
数字化时代的电子文件柜
(一)概述:
组织、存储和管理数据的仓库
数据库(Database,简称DB)是按照一定的数据结构组织、存储和管理数据的仓库。
计算机数据库中存放了有组织的、可共享的、统一管理的大量数据,包括文本、图像、声音等,是信息化时代的数据文件柜。
数据库和操作系统、中间件一样,属于基础软件的范畴,高度复杂且存在较高的技术壁垒,是应用系统承载数据的基石。
数据库管理系统(DatabaseManagementSystem,简称DBMS)是一种操作和管理数据库的软件,用于建立、使用和维护数据库。
DBMS对数据库进行统一的管理和控制,保证数据库的安全性和完整性。
DBMS是把用户意义下抽象的逻辑数据处理,转换成为计算机中具体的物理数据处理的软件。
用户通过DBMS访问数据库中的数据,数据库管理员通过DBMS进行数据库的维护工作。
数据库系统(DatabaseSystem,简称DBS)一般由数据库、数据库管理系统、应用系统、数据库管理员和用户构成。
DBS是存储介质、处理对象和管理系统的集合体,是一个为实际可运行的存储、维护和应用系统提供数据的软件系统,数据库及其管理软件是数据库系统的组成部分,数据库管理系统是其核心部分。
(二)分类:
需求升级与技术迭代驱动,数据库品类多元化发展
数据库的分类多种多样,为了方便理解,我们从分别从需求侧和供给侧对当前主流的数据库类型进行梳理。
从需求侧看,可对数据库进行以下两种分类:
关系型数据库和非关系型数据库、OLTP数据库和OLAP数据库。
1)按数据存储方式分类:
关系型数据库和非关系型数据库关系型数据库是一种典型的数据库类型,采用关系模型,常用行和列等二维的形式来存储结构化数据,一系列的行和列被称为表,一组表组成了一个数据库。
典型的关系型数据库有Oracle、MySQL、DB2、MicrosoftSQLServer和MicrosoftAccess等。
随着web2.0的兴起,传统的关系数据库在处理大规模和高并发动态数据时,出现了响应慢、扩展困难等问题,非关系型的数据库由此应运而生。
非关系型数据库的产生是为了解决大规模数据集合多重数据种类的应用难题。
非关系型数据库又被称为NoSQL,是用非关系模型,存储非结构化的如图像、音视频等类型数据的数据库,分为键值存储数据库、文档型数据库、图形数据库等多种类别。
非关系型数据库通过例如图形模型、文档模型等更为灵活的模型,解决了关系型数据库无法应对的非结构化数据问题。
非关系型数据库有Mongodb、Hbase、Redis、Cloudant等。
2)按应用类型分类:
OLTP和OLAPOLTP(On-LineTransactionProcessing,操作型数据库,又称联机事务处理)主要关注一段时间内的实时数据,基本特征是接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。
伴随企业信息系统大量业务数据的产生,从不同类型的数据中提取出对企业决策分析有用的信息这一需求日渐显现。
分析型数据库技术就是在这样的背景下发展起来的。
OLAP(On-LineAnalysisProcessing,分析型数据库,又称联机分析处理)主要是分析长期数据的规律走势,多应用于决策。
操作型数据库的优势在于在线实时业务的处理,分析型数据库则擅长复杂的分析操作并给决策提供支持,两者的侧重点不同,因此可以相互补充。
例如可以从多个操作型数据库源收集数据放入OLAP数据仓库中进行分析。
在未来,会出现越来越多操作型数据库和分析型数据库有机结合的应用。
典型的操作型数据库有OracleDataBase、MySQL、DB2、MongoDB等;典型的分析型数据库有ApacheKylin、Hive、Snowflake、OracleHyperion、Spark等。
从技术架构(供给侧)看,数据库可分为集中式数据库和分布式数据库这种分类方式的诞生,一方面是由于传统集中式数据库缺乏扩展性,为了实现扩展而出现了分布式数据库,另一方面,是缘于云技术和网络技术快速发展,推动分布式技术升级,形成新型分布式数据库。
集中式数据库由一个处理器、与它相关联的数据存储设备以及其他外围设备组成,将数据集中在一台机器上进行处理,被物理地定义到单个位置。
典型代表有Oracle、DB2、人大金仓、武汉达梦等;
分布式数据库采用分布式架构,将数据在网络上分开储存于多个机器中进行处理,分布式数据库是一个数据集合,这些数据在逻辑上属于同一个系统,但物理上却分散在计算机网络的若干站点上,并且要求网络的每个站点具有自治的处理能力,能执行本地的应用。
分布式数据库典型代表如谷歌的GoogleSpanner、阿里巴巴的OceanBase、华为的GaussDB等。
开源数据库是数据库发展的另一路径,也孕育了互联网的繁荣发展。
开源软件是围绕社区概念设计的,将数据库,API和Web托管引擎的源代码存储库向公众开放,允许任何人查看或贡献。
社区中的领导者会指导和监控新功能的开发和修补错误。
对于希望建立强大技术基础的企业而言,开源工具一方面可降低成本、另一方面方便企业对技术的快速迭代创新。
比如国内的部分互联网巨头,一开始考虑到成本、可控性、技术创新型等因素,多数选择基于开源的数据库进行数据库的深度研发,并在研发过程中不断回馈开源社区。
开源数据库并不是和商业数据库背道而驰的,开源数据库同样可以实现商业化。
我们认为,在云计算快速发展的时代,商业数据库和开源数据库有望实现进一步融合。
开源数据库典型代表如MySQL、PostgreSQL、MongoDB、Hbase、TiDB等
二、全球格局:
Oracle领衔,云时代百家争鸣
(一)参与者:
传统IT巨头、云计算巨头、独立公司三方势力竞逐市场
数据库市场目前主要由传统IT巨头、云计算巨头、独立数据库公司三大势力角逐。
传统IT巨头多在关系模型领域深耕,整体占据主导地位,但云计算、大数据的快速发展带来了需求的进一步爆发,云计算巨头、独立数据库公司的数据库产品快速崛起。
以Apache软件基金会为代表的开源项目在数据库市场也具备一席之地,但这些项目往往不以盈利为目的。
1)传统巨头:
传统数据库领域,国外数据库厂商起步较早,全球的传统IT巨头不断进行战略布局和产品迭代,在传统数据库领域主导市场,包括Oracle、IBM、Microsoft、SAP等。
2)云计算巨头:
伴随云计算、大数据等技术的快速发展,互联网巨头在数据库市场大放异彩,云计算巨头的数据库产品借势快速发展,包括亚马逊、谷歌、阿里、腾讯、华为、Facebook等。
3)独立厂商:
在商业化和开源并行发展的同时,也涌现出一批技术起家的数据库独立厂商,如Mongodb、Snowflake等公司,各自在自身的强势领域深耕细作。
传统巨头在关系型OLTP领域强势,云计算巨头以及独立数据库厂商在非关系型领域以及OLAP领域更具竞争力。
云计算巨头更多的是依靠云计算、大数据的快速发展崛起,同时,独立厂商更多的选择依赖开源快速提升产品影响力和市场认知度,同时依靠社区的力量,也可以对产品进行快速的迭代升级。
从流行程度看,传统数据库产品占据主流地位,传统巨头甲骨文、微软、IBM排名稳居前列,另一类是开源社区版数据库,包括MySQL、PostgreSQL、Redis等,值得注意的是,MongoDB作为独立数据库厂商,流行程度排名第五位,凭借其优异的产品性能、丰富的应用场景赢得市场的青睐。
从产品维度看,传统IT巨头以及云计算巨头的产品布局较为完善,独立数据库厂商专注于各自擅长领域。
传统IT巨头如Oracle,具备关系型、非关系型、分析类、开源等多品类数据库产品,满足企业多样化需求。
互联网巨头如亚马逊,产品主要围绕云生态布局,多种云数据库、云数据仓库产品。
独立厂商如MongoDB,专注于文档存储数据库MongoDB的开发。
独立厂商又如SnowFlake,专注于数据仓库的开发,主要应用于分析类场景。
(二)市场规模:
五百亿美元大蛋糕,云数据库快速崛起
各路豪强瓜分500亿美元市场大蛋糕。
Gartner报告显示,2018年全球数据库管理系统(DBMS)市场规模达461亿美元,同比+18.4%,增速达到近十年峰值,其中云数据库贡献104亿美元,为行业增长贡献68%,这种变化背后反映整个数据库行业云化趋势显著。
Gartner预计,到2021年,云数据库在整个数据库市场中的占比将首次达到50%;而到2023年,75%的数据库要跑在云平台之上。
Oracle独领市场,全球云计算巨头市场份额快速提升,专注于数据库的创业型公司逐渐崛起。
从需求端来看,受益于数据量的爆发,大数据的相关应用场景日渐丰富,带来不同类型数据库需求量的快速增长。
从供给端来看,云技术快速普及,各大互联网厂商积极推出各种基于云架构的数据库产品,匹配云计算的发展,不断提升数据库的计算和存储性能。
根据Gartner数据显示,2014年AWS位列第6,2016年第5,2017年第4,2018年第3位仅次于Oracle、微软;阿里云由2014年的26位跃升至2018年的第9位;谷歌云由2015年的23位跃升至2018年的第10位;华为由2015年的24位跃升至2018年的第11位;腾讯云由2016年的27位跃升至2018年的第13位。
以阿里、华为、腾讯为代表的中国云厂商正在崛起。
根据Gartner2020年全球数据库魔力象限评估结果,阿里云首次挺进全球数据库第一阵营——领导者象限,是中国数据库厂商首次进入全球顶级数据库行列。
腾讯云、华为云进入“特定领域者”。
Gartner数据显示,2019年腾讯云数据库市场份额增速达123%,位居国内所有数据库厂商之首,并在全球范围内保持了连续两年增速前三的迅猛势头。
华为云凭借GaussDB系列数据库产品提供完善的产品矩阵和数据库迁移解决方案,基于融合开放理念,广泛兼容数据库开源生态和华为自主生态openGauss。
(三)崛起规律:
深耕技术打磨产品,抓住大数据时代潮流
(1)传统IT巨头:
关系模型掀起数据库发展第一浪
20世纪60-70年代,关系模型快速发展,关系型数据库可解决数据存储的易用性、抽象性、独立性等问题,拉开了关系型数据库软件革命的序幕。
1970年,IBM公司的研究员埃德加·考特在CommunicationsofACM上发表著名论文的《ARelationalModelofDataforLargeSharedDataBanks》,在还是层次模型和网状模型的数据库产品在市场上占主要位置的时代,拉开了关系型数据库软件革命的序幕。
IBM在1973年就启动了SystemR的项目来研究关系型数据库的实际可行性,各方关系型模型支持者吸取该项目经验,进行关系型数据库研发。
1977年,Oracle创始人LarryEllison与BobMiner和EdOates在硅谷共同创办了一家名为软件开发实验室的计算机公司(Oracle前身),开始进行关系型数据库的研发,同时期Berkeley大学也在进行关系数据库系统Ingres的开发。
IBM虽然1973年就启动了SystemR的项目来研究关系型数据库的实际可行性,也没有及时推出这样的产品,因为当时IBM的的IMS(著名的层次型数据库)市场较好,公司当时认为,如果推出关系型数据库,会是对另一款产品的颠覆。
80-90年代,大量数据库公司吸取关系模型经验,逐步推出自己的产品。
1983,IBM发布商业版数据库DB2。
1984年,Sybase公司成立,创始人之一BobEpstein是Ingres大学版(与System/R同时期的关系数据库模型产品)的主要设计人员。
1988年,微软推出SQLServer,主要适配自身Windows生态,这个时期,Oracle因为客户需求已经使用C语言开发出适用于多个系统版本的数据库产品。
90年代,Mysql、PostgreSQL等开源版本数据库陆续发布,出现在人们视野中。
我们认为,传统IT巨头在数据库领域能经久不衰的原因有以下几点:
a.起步较早国外数据库厂商相对于国内厂商早起步20-30年。
国内厂商中,如今占据国内市场份额较多的南大通用成立于2004年,达梦成立于2000年,而国外的IT巨头早在上个世纪便已经在这一领域进行研究发展,如Oracle诞生于上个世纪七十年代,早在1989年便进入中国市场,2019年已经发布了最新版本的OracleDB19C。
而IBM等公司同样在同期已经有了数据库的研发。
先入为主导致技术领先和客户粘性是如今国外厂商仍然占据国内数据库市场巨大份额的重要原因。
b.产品快速迭代龙头数据库公司对于产品的更新换代较为积极,能够产生较大的用户粘性,使得市场份额优势持续。
以Oracle为例,在Oracle9i产品中引入网络(Internet)的特性,在Oracle10g中加入网格计算(grid)的特性,在Oracle12c中则引入云(cloud)的概念,不断让产品有新的突破。
而通过每一次更新对于产品的漏洞进行及时修复、推出新的应用、优化产品的性能,也都会吸引已有的用户持续使用这款产品。
数据库的这些特征,使其如同操作系统一样存在较强的用户粘性,帮助行业龙头厂商迭代已建立的市场份额优势,因此数据库行业是一个容易形成寡头的行业。
c.技术领先,性能加持Oracle的数据库产品包括两大类,第一种是自研的OracleDatabase,另一种是收购之后归入Oracle公司的MySQL。
OracleDatabase适用于大型企业,在兼容性、可移植性、可连结性、开放性方面都有巨大优势。
以其兼容性为例,OracleDatabase可以在Windows、Unix、DOS等多个系统上工作;OracleDatabase也支持多种协议,如TCP/IP、DECnet等,可以与多种通讯网络连接;Oracle还提供了多种开发工具,方便用户自己做进一步开发。
Oracle在系统吞吐量的 TPS(TransactionsPerSecond)、QPS(QueryPerSecond)、并发数等关键性能指标在同类产品中领先。
以Oracle12.2为例,C语言代码达到了惊人的近2500万行。
MySQL是瑞典MySQLAB公司开发的一款开源数据库产品,定位在于开发小而精的产品,其易用性强,拥有适合分布式组织的可伸缩性,也有为决策提供帮助的数据仓库功能,还与许多其他服务器软件紧密关联,拥有出色的性价比。
2008年Sun以10亿美元收购了MySQL,而Oracle在2009年用高达74亿美元的资金收购了Sun,将MySQL变成了Oracle旗下的产品。
数据库产品最重要的指标之一是性能,Oracle产品优势出众。
安全性能方面,Oracle的安全机制得到17家独立安全评估机构的认可,获得最高认证级别的ISO标准认证,SQLServer几乎没有获得安全证书,而IBM则选择在数据库之外解决安全问题,依靠操作系统等来保证DB2的安全;
可伸缩性和并行性方面,Oracle的服务器通过使一组结点共享同一簇中的工作来扩展,提供高可用性和高伸缩性的解决方案。
SQLServer和DB2的并行实施和共存模型仍不够成熟,在处理日益增多的用户数和数据方面的伸缩性有限;
在开放性上,Oracle能在所有主流平台上运行,支持所有工业标准,使用户可以自由选择最佳方案解决问题,没有SQLServer只能在Windows系统上运行的局限性。
Oracle的底层使用C语言开发而成,随着不断发展在开发中也加入了Java语言和技术标准,并且支持绝大多数编程语言,相比之下,竞争对手中的SAP的数据库软件SAPAdaptiveServer、SAPSQLAnywhere等均只支持几种编程语言,与其他技术与平台的兼容度低于Oracle。
Oracle在产品的多功能性上拥有较大优势,拥有RAC等数据库领域的硬核技术。
OracleRAC(RealApplicationClusters)是Oracle的一项支持网格计算环境的关于应用集群的核心技术。
在一个应用环境中,让多个服务器来管理同一个数据库,分散了每一台服务器的工作量。
OracleRAC的技术大幅提升架构的可用性、性能、扩展性,即使某些实例宕机,也能维持系统正常工作;提高集群的事务处理能力,使得多个实例能够并发工作;能通过增加节点提高数据库的性能;OracleDataGuard是Oracle的高可用性数据库方案,主要功能是数据保护、数据容灾。
OracleDataGuard在主节点和备用节点之间通过日志同步来保证主数据库与备用数据库之间数据的同步,实现数据库的快速切换和故障恢复,最大程度保护数据库的安全。
d.生态完善国外数据库公司注重技术创新和边界拓展,不断获得用户粘性。
以Oracle为例,Oracle是第一个引入对象概念、多媒体等多种数据格式、并行技术、网格技术的数据库。
作为数据库产品的标杆,Oracle的IT布局十分完备,开发的产品涵盖了行业管理软件、企业管理软件、中间件、数据库、操作系统、服务器、存储等多个领域。
此外,国外数据库产品的商品化程度高,一系列配套的服务也更为成熟。
如Oracle为企业提供的ERP管理软件,帮助企业迁移到云ERP上,助力企业提高弹性和敏捷性,驱动企业实现业务增长。
(2)云计算巨头:
低成本、高弹性需求驱动,以自身应用场景向外延展云数据库是部署和虚拟化在云计算环境中的数据库,以服务的方式提供数据库功能。
云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加容易。
云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点,可满足企业海量数据存储、低成本数据存储、动态变化数据存储等需求。
(3)我们认为,云计算厂商数据库产品快速发展立足的原因有以下三点:
1)成本压力变大,各厂商逐渐开始基于开源进行自研。
以阿里巴巴为例,阿里曾经就是甲骨文在亚太地区最大的客户,但由于Oracle数据库的高昂价格,阿里逐渐切换为基于MySQL进行自研。
2)各大互联网厂商依托其专有应用场景不断完善打磨产品,最终向外延伸实现边界的扩张。
以亚马逊、阿里巴巴为例,这些厂商场景复杂,需求快速爆发,传统数据库产品不能及时响应自身业务需求,程序员又无法看到Oracle核心源代码,便依托其电商场景下庞大的数据处理场景打磨数据库产品。
在此基础上,逐步演进为云数据服务提供商,提供多种云数据库、数据仓库、数据挖掘类产品。
3)实现高自主可控。
云计算厂商大多希望可以自己开发底层系统,实现系统软件的安全可控,基于此,可以更好的保障自身业务和客户数据的安全性。
从供给端看,全球云计算产业快速发展中国增速更高,云时代新型数据库厂商开始持续涌现。
受益于云计算的快速发展,以分布式、微服务、容器等为代表的云原生技术不断更新迭代与升级,为数据库产业的蓬勃向上奠定坚实基础。
2019年,全球总体云计算市场规模达到1883亿美元,同比+20.86%。
根据Gartner预测,未来四年全球云计算市场规模CAGR将保持在18%左右,2023年整体市场规模将达到3500亿美金。
我国云计算市场未来有望是公有云和私有云并存发展,根据信通院预测,2023年我国公有云市场规模将达到2307亿元,我国私有云市场规模将达到1447亿元,整体增速高速全球云计算市场增速,云时代新型数据库厂商开始持续涌现。
从需求端来看,数据量的爆发以及数据形式的多元化带来了爆发性的市场需求。
全球数据量生产迅猛,IDC预测,2020年全球数据产生量将达到49ZB,同比增长23%;中国产业信息网预测,我国产生的数据量将从2018年的7.6ZB增至2025年的48.6ZB,CAGR达30.35%,超过美国同期的数据产生量约18ZB。
2010-2018年全球物联网设备数量高速增长,CAGR达20.9%,2018年全球物联网设备连接数量高达91亿个。
预测2025年全球物联网设备(包括蜂窝及非蜂窝)联网设备将达到252亿个。
2018年我国物联网连接规模为23亿,预计2022年物联网连接规模将达到70亿。
(3)独立厂商:
云原生大数据带来多元化需求,各路豪强竞相崛起
我们认为,独立数据库厂商有望快速发展,市场百花齐放,原因有以下三点:
1)对于独立厂商而言,多元化需求带来多重机遇。
从需求看,半结构化数据、非结构化数据快速爆发,各公司借需求多元化发展的趋势,推出适合特定场景的数据库产品。
如SnowFlake基于云原生,在大数据时代做数据科学、数据分析、商业智能。
2)云计算推动分布式快速发展,各厂商不断实现新品升级。
云计算快速发展,分布式技术逐渐成为主流发展趋势,各独立厂商不断基于新架构发布产品,如基于云原生、存储计算分离等,带来先进的性能、高弹性、易扩展等优势。
而传统数据库厂商在新架构之上的技术转型往往存在一定难度。
3)多云快速发展,中立优势明显。
公有云和私有云结合的趋势日渐明显。
中立厂商开发数据库产品的同时往往会考虑多种环境,打通多个云环境,是企业在选型云产品的时候更加灵活。
以非关系型数据库、数据仓库、HTAP等品类为例,未来有望呈现多元化发展、百花齐放。
a.非关系数据库(NoSQL)领域:
以MongoDB为例,是一个基于分布式文件存储的数据库,旨在为WEB应用提供可扩展的高性能数据存储解决方案,介于关系数据库和非关系数据库之间,具备高性能、易部署、易使用,存储数据方便等特点。
NoSQL泛指非关系型数据库,区别于关系数据库,它们往往不保证关系数据的ACID特性,对于超大规模和高并发数据具有较好的处理能力。
NoSQL数据库种类繁多,数据之间无关系,容易扩展。
NoSQL数据库具有非常高的读写性能,尤其在大数据量下,主要在于它的无关系性,数据库的结构简单。
目前对于非关系型数据库主要有四种数据存储类型:
键值对存储(key-value),文档存储(documentstore),基于列的数据库(column-oriented),图形数据库(graphdatabase)。
b.数据仓库领域:
OLAP是数据仓库系统的主要应用,其支持的对象只要是面向分析场景的应用,提供结构化的、主题化的数据提供给运营,做业务反馈和辅助决策用,同时,有些场景下,也可以由数据仓库对业务进行支持。
以Snowflake为例,提出了云原生数据仓库CloudNativeDataWarehouse(CDW)的理念,利用云原生的数据仓库技术,采取计算、存储分离架构,为客户提供了灵活、按需
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据库 行业 研究 报告