数据融合实时交互式分析-云原生数据仓库AnalyticDB PostgreSQL版-云原生数据仓库AnalyticDB-阿里云

云原生数据仓库AnalyticDB PostgreSQL版提供PB级数据实时交互式分析、ETL/ELT、BI报表展示功能，支持数据高吞吐实时写入与批量导入，提供ACID保证和标准事务隔离级别，采用MPP全并行架构，是一款具有高性价比的云原生数仓产品，提供基于阿里云生态的公共云和混合云服务。

概述

AnalyticDB PostgreSQL版支持JDBC/ODBC连接，支持SQL 2003语法标准，兼容PostgreSQL，Greenplum，和部分Oracle语法，同时提供PL/pgSQL存储过程。另外在SQL基础上，支持Apache MADLib机器学习，PostGIS地理位置分析，以及JSON/JSONB半结构化数据，图片音频等非结构化数据与结构化数据融合分析功能。

在部署形态层面，AnalyticDB PostgreSQL版提供阿里云公共云服务，按量付费，支持垂直升降配和水平扩容，另外支持存储容量独立在线扩容；同时提供阿里云企业版，和敏捷版DBStack混合云部署形态，同时支持X86和ARM平台。

在第三方认证层面，AnalyticDB PostgreSQL版通过了“国际数据库TPC官方TPC-H 30TB认证”（性价比综合排名第一），信通院“分布式事务型数据库基础能力评测”（TPC-C）和“分布式分析型数据库大规模性能认证”（640节点 TPC-DS 100TB）。

技术架构

以下为AnalyticDB PostgreSQL版的架构图，主要包含Master Node和Compute Node两大组件，中间通过Interconnect进行互联通信和数据交换传输。

Master Node和Compute Node提供多副本保障服务高可用和数据高可靠，同时均支持通过Scale Out水平扩展来提高集群整体写入查询并发和吞吐。

模块组件

Master Node
- Master Node主要负责客户端连接协议层接入（Access Protocol），认证和鉴权（Authorization & Authentication），SQL解析（Parser），重写（Rewrite），优化（Optimizer），和执行分发协调（Dispatcher）。
  另外，Master Node还包含全局事务管理器（Global Transaction Manager），负责全局事务ID、快照生成和分布式事务管理；全局元数据目录（Global Catalog）则记录了用户，库，表，视图，索引，分布分区等数据库对象的元数据信息。
Compute Node
- Compute Node包含了一组Segment，部署形态上可以是物理机，VM或者容器。
Segment
- Segment是负责具体的SQL执行和数据存储节点。其中本地元数据（Local Catalog，与Master Node Global Catalog保持同步）起到加速执行的功能（Segment无需每次访问Master Node获得元数据信息）；本地事务管理器（Local Transaction Manager）提供本地事务能力；缓存管理器（Buffer Pool）则提供了数据的读写缓存，用于提升读写性能。
- 执行引擎（Query Executor）通过向量化（Vectorization）和即时编译（JIT）等技术，相比传统逐行计算的火山模型获得数倍性能提升。
- 数据和索引（Data & Index）支持行存表，列存表，和外表以及相应索引：
  - 行存表：数据按行存放，支持主键，B+树索引，Bitmap索引，GIN索引等，适合数据实时写入更新删除，点查，范围查，通过MVCC提供事务能力。
  - 列存表：数据按列存放，高压缩比，适合追加写（少量更新删除）场景。通过B+树索引支持高效点查，同时在block级别提供min&max轻量级索引，数据可按多列进行多维排序，支持任意排序列的组合过滤，支持高效分析场景。
  - 外表：元数据存放在本地系统表，数据存放在OSS，支持的数据格式包括ORC，Parquet，CSV，JSON，支持表分区，其中ORC和Parquet支持列过滤和谓词下推，提升分析性能。除OSS外，同时也支持Hadoop（HDFS, Hive）外表。

组件交互

下图展示了客户端从建立连接到执行一条完整SQL整个过程中上述主要模块组件的交互和执行流程。

数据模型

将表数据均匀的分布到各个节点中，是发挥集群整体IO性能，提升存储容量，优化计算与网络传输效率的关键。除了默认的哈希分布策略，AnalyticDB PostgreSQL版还支持复制分布和随机分布。复制分布是指在每个存储节点上都存放该表的全量数据，通常用于经常被关联查询的小表，在执行相应查询时无需数据广播或重分布环节，提升查询性能。另外也支持随机分布策略，主要场景是当前表字段中无合适字段作为hash分布列（比如会引起各个节点数据倾斜），同时该表也不小（不适合复制策略），随机分布可以让该表数据被均匀摆放到各节点。

在将表数据分布到各个存储节点后，在单个节点上根据业务场景可对表数据进行分区，在执行具体查询时进行分区裁剪，缩小查找和数据处理范围。AnalyticDB PostgreSQL版支持范围和列表分区类型，同时支持多级分区。下图展示了一张用户表显示通过ID列hash分布到3个节点，然后在每个节点上按date列进行范围分区，然后再按city列进行列表分区。图中最右边的每个分区都对应了一份数据存储和索引。这些分区表可以是行存表，也可以是列存表，或者外表。比如业务上完全可以对最近需要写入的分区（Mar）使用行存表，过去已经归档的分区（Feb）使用列存表，出于降低成本考虑，也可以对较少查询的分区（Jan）使用OSS外表。

数据库对象

AnalyticDB PostgreSQL版不仅仅是关系型也是对象-关系型，数据库的对象通常包括：表、视图、函数、序列、索引、分区子表、外部表等，而对象-关系型则进一步支持用户自定义对象和它的属性，包括数据类型、函数、操作符，域和索引，甚至复杂的数据结构也可以被创建，存储和检索。这些对象将按照逻辑划分成不同的集合即组成模式（schema），每当新数据库创建后，都会默认为数据库创建模式public，这也是该数据库的默认模式，并且允许每个用户（角色）进行访问，所有为此数据库创建的对象一般都将默认在这个模式中。

数据库是数据库对象的物理集合，而模式则是数据库内部用于组织管理数据库对象的逻辑集合，模式之下则是各种应用程序会接触到的对象，比如表、索引、数据类型、函数、操作符等。使用模式把数据库对象组织成逻辑组，让它们便于管理，允许多个用户（角色）使用同一个数据库不会互相干扰。

用户（角色）是数据库（集群）全局范围内的权限控制系统，用于各种集群范围内所有的对象权限管理。用户不特定于某个单独的数据库，如果需要登录数据库管理系统则必须连接到一个数据库上，用户可以拥有各种数据库对象。

缺省情况下，用户看不到模式中不属于他们所有的对象，需要对象所有者赋予相应权限。如果已经被赋予适当的权限，用户也可以在别的用户模式里创建对象。请注意，缺省每个用户都在public模式上有创建对象的权限，比如新建一个表并读写数据。

在AnalyticDB PostgreSQL版数据库中，所有对象作为系统元数据将同时被保存在Master服务器和Segment服务器上。