基本概念

本文将向您介绍云数据库ClickHouse产品中涉及的一些基本名词概念,以便于您更好地理解云数据库ClickHouse产品。

地域(Region)

购买云数据库ClickHouse的服务器所处地理位置。您需要在购买云数据库ClickHouse服务时指定Region,Region一旦指定后就不允许更改。

可用区(Zone)

同一地域下,电力、网络隔离的物理区域,可用区之间内网互通,可用区内网络延时更小。

ClickHouse集群(Cluster)

在物理构成上,ClickHouse集群是由多个ClickHouse Server实例组成的分布式数据库。这些ClickHouse Server根据购买规格的不同而可能包含1个或多个副本(Replica)、1个或多个分片(Shard)。在逻辑构成上,一个ClickHouse集群可以包含多个数据库(Database)对象。

副本配置(Edition)

ClickHouse集群包含如下副本。

  • 双副本版:每个节点包含两个副本,某个副本服务不可用的时候,同一分片的另一个副本还可以继续服务。

  • 单副本版:每个节点只有1个副本,该副本服务不可用时,会导致整个集群不可用,需要等待此副本完全恢复服务状态,集群才能继续提供稳定服务。

说明
  • 双副本版的资源以及对应的购买成本都是单副本版的2倍。

  • 由于底层云盘提供高可靠保证,即便是单副本版也能确保数据不会丢失。

分片(Shard)

在超大规模海量数据处理场景下,单台服务器的存储、计算资源会成为瓶颈。为了进一步提高效率,云数据库ClickHouse将海量数据分散存储到多台服务器上,每台服务器只存储和处理海量数据的一部分,在这种架构下,每台服务器被称为一个分片(Shard)。

副本(Replica)

为了在异常情况下保证数据的安全性和服务的高可用性,云数据库ClickHouse提供了副本机制,将单台服务器的数据冗余存储在2台或多台服务器上。

数据库(Database)

数据库是云数据库ClickHouse集群中的最高级别对象,内部包含表(Table)、列(Column)、视图(View)、函数、数据类型等。

表(Table)

表是数据的组织形式,由多行、多列构成。

云数据库ClickHouse的表从数据分布上,可以分为本地表和分布式表两种类型。

类型

说明

区别

本地表(Local Table)

数据只会存储在当前写入的节点上,不会被分散到多台服务器上。

  • 本地表的写入和查询,受限于单台服务器的存储、计算资源,不具备横向拓展能力。

  • 分布式表的写入和查询,可以利用多台服务器的存储、计算资源,具有较好的横向拓展能力。

分布式表(Distributed Table)

本地表的集合,它将多个本地表抽象为一张统一的表,对外提供写入、查询功能。当写入分布式表时,数据会被自动分发到集合中的各个本地表中;当查询分布式表时,集合中的各个本地表都会被分别查询,并且把最终结果汇总后返回。

云数据库ClickHouse的表从存储引擎上,可以分为单机表、复制表两种类型。

类型

说明

区别

单机表(Non-Replicated Table)

数据只会存储在当前服务器上,不会被复制到其他服务器,即只有一个副本。

  • 单机表在异常情况下无法保证服务高可用。

  • 复制表在至少有一个正常副本的情况下,能够对外提供服务。

复制表(Replicated Table)

数据会被自动复制到多台服务器上,形成多个副本。

ClickHouse集群

ClickHouse集群包含若干单位计算资源和存储资源,能够提供ClickHouse引擎数据存储和分析服务的PAAS服务。

Worker节点

Worker节点是ClickHouse集群内部的副本节点,参与引擎计算的实际资源。

CCU

CCU(ClickHouse Compute Unit)是ClickHouse集群计算资源的计量和计费单位,1 CCU对应资源为1 Vcpu 4 GiB。标准计费单位:CCU/分钟。

计算资源自动弹性

计算资源自动弹性(Autoscaling)是计算资源按照CCU粒度进行资源弹性扩展,根据Mem的使用情况进行自动的CCU扩展。

弹性资源设置区间

弹性资源设置区间是用户设置CCU使用区间,弹性扩缩必须保持在用户设置的资源区间内,不能小于最小值且不能大于最大值。

存储资源

存储资源是企业版本采用的共享存储方案,按需付费。