本文为您介绍数据分析的技术发展趋势和市场趋势。
技术发展趋势
商业数据库起步于二十世纪八十年代,主要代表为Oracle,SQL Server,DB2等结构化数据在线处理的关系型数据库,而以MySQL,PostgreSQL为代表的开源关系型数据库也在二十世纪九十年代得到了发展。
近些年来,随着业务数据量的增多,企业需要能够对数据进行分析,助力商业决策,更好地发挥数据价值,而传统开源及商业关系型数据库通常为单机版,在海量数据分析场景下扩展能力有限,性能无法满足需求。以Teradata,Oracle Exadata为代表的数仓技术陆续出现,具备了较好的分布式横向扩展能力。
Teradata、Exadata都是以一体机形态输出,对硬件有特定要求,整体价格昂贵,通常面向传统金融,交通,能源等大企业。随着Google等互联网企业崛起,以Hadoop为代表的基于传统x86服务器集群的大数据技术迅速发展,同时开源分布式数据库如Greenplum等也成为相应替代方案,为广大中小企业,尤其是互联网行业大大降低了数据分析的技术和成本门槛,还有分布式技术也得到进一步发展和普及。Hadoop也在早期的MapReduce接口基础上增加了SQL接口,SQL语法逐渐成为大数据分析系统的标准配置。
随着AWS,Azure,Alibaba,Google等云厂商的出现,云原生分布式数据仓库成为目前数据分析技术的主要解决方案,代表性云服务包括Amazon Redshift,Snowflake,Alibaba Cloud AnalyticDB,Google BigQuery等。这些云原生数据仓库技术分别起源于数据库和大数据,提供标准SQL接口和ACID保证,底层存储通过Share Everything或Share Nothing实现资源池化和横向扩展能力。资源隔离,数据共享是目前业务应用对云原生数据仓库的普遍需求。
综上所述,数据分析技术趋势主要包括:
- 云原生分布式:无论是OLTP还是OLAP,如今单机数据已无法满足企业业务和数据快速增长的需求,分布式数据库成为主流,同时数据库市场未来主要在云上("Gartner: The Future of the DBMS Market Is Cloud"),云原生架构与特性成为云数据库的必要条件。
- 存储计算分离:云计算的本质是资源高效池化,而数据库的两大核心组件是存储和计算。通过存储计算分离,做到两者解耦,资源池化,独立扩展,满足业务上资源隔离,数据共享的需求,是当下的架构趋势。
- 计算分析一体化:传统数据分析方案是定期从OLTP系统抽取数据同步到OLAP系统,有些可以做到准实时同步。该方案带来的问题是部署复杂,实时性低,数据冗余和高成本。理想情况是一套HTAP系统同时提供计算和分析。
- 大数据与数据库一体化:早期大数据技术以牺牲一定程度一致性为基础提供分布式能力,解决了传统单机数据库的扩展性不足问题,在MapReduce基础上提供了标准SQL接口,架构上也逐步采用了部分MPP数据库技术;另一方面,分布式数据库也快速发展,融合了部分大数据技术和存储格式,在扩展性层面获得了很好提升。在数据分析场景,两者解决的都是相同问题。
市场趋势
数据规模高速增长(全球2010-2025年复合增长达到27%,中国则大于30%)带来了强劲的数据分析需求。据Gartner统计,到2025年实时数据占比达30%,其中非结构数据占比达80%,同时数据存储云上规模达45%,而云上数据库规模可达75%。
从数仓分析市场增长来看,据Global Market Insights分析,2019-2025全球年复合增长超过12%,中国则大于15%,其中主要市场需求来自金融,互联网,制造业,政府,新零售等行业。
阿里云数据库
阿里云从成立之初就对数据库和数据分析进行技术投入,一方面很好地服务了阿里巴巴经济体内各个业务场景,另一方面也通过阿里云平台对外输出服务各个行业。通过持续投入和积累,阿里云从2020年开始,连续三年荣获Gartner云数据库管理系统魔力象限全球领导者称号。
在数据分析关键能力层面,下图为云原生数据仓库AnalyticDB PostgreSQL版在《2020 Gartner Critical Capabilities for Cloud Database Management Systems for Analytical Use Cases》中的得分排名。