为了让您可以实时掌握云数据库ClickHouse集群的状态,帮助您早期问题发现,快速定位故障,性能优化决策,云数据库ClickHouse提供了丰富的监控项。本文介绍云数据库ClickHouse集群的监控项以及其具体含义。
ClickHouse集群监控项说明
- 以下监控项是2021年12月01日之后购买的集群监控项详情。 
- 2021年12月01日之前购买的集群,监控项详情,请参见旧版集群监控项说明。 
社区版
| 监控项 | 单位 | 说明 | 
| 磁盘吞吐 | 字节(Byte) | 磁盘读写的吞吐量(带宽)。 | 
| 磁盘IOPS | 次/秒 | 磁盘每秒进行读写操作的次数。 | 
| 磁盘使用量 | 字节(Byte) | 磁盘空间的使用量。 | 
| 磁盘使用量-单节点统计 | 字节(Byte) | 磁盘使用量(单节点上所有磁盘使用量总和)。 | 
| 磁盘使用率 | 百分比(%) | 磁盘空间的使用量与最多可使用的磁盘空间容量的比值。 | 
| 磁盘使用率-单节点统计 | 百分比(%) | 磁盘使用率(以节点为单位统计磁盘使用率)。 | 
| CPU使用率 | 百分比(%) | 集群各节点的平均CPU使用率。 | 
| inode使用率 | 百分比(%) | inode的使用个数占最多可使用的总个数的比值。 说明  inode是Linux系统中用来标识文件或目录的。 | 
| 内存使用量 | 字节(Byte) | 集群各节点的内存使用量。 | 
| 内存使用率 | 百分比(%) | 集群各节点的平均内存使用率。 | 
| Data Part个数 | 个 | 数据分片的总数。 | 
| Inactive Data Part个数 | 个 | 不活跃的数据分片个数。 | 
| ZooKeeper CPU使用率 | 百分比(%) | 集群ZooKeeper节点的平均CPU使用率。 | 
| ZooKeeper 内存使用率 | 百分比(%) | 集群ZooKeeper节点的平均内存使用率。 | 
| 每秒写入大小 | 字节(Byte) | 集群各节点每秒写入的数据量。 | 
| 每秒写入行数 | 行/秒 | 集群各节点每秒写入的行数。 | 
| QPS | 个 | 每秒处理的查询数目。 | 
| TPS | 个 | 每秒处理的事务数目。 | 
| 网络吞吐 | 字节(Byte) | 网络带宽。 | 
| TCP连接数 | 个 | 集群的TCP连接个数。 | 
| HTTP连接数 | 个 | 集群的HTTP连接个数。 | 
| 运行Init Query个数 | 个 | 正在运行的非转发查询语句个数。 | 
| 运行Query个数 | 个 | 正在运行的查询语句个数。 | 
| 失败Query个数 | 个 | 查询失败的语句个数。 | 
| 失败Insert Query个数 | 个 | 插入失败的语句个数。 | 
| 延迟Insert个数 | 个 | 延迟的插入语句个数。 | 
| 失败Select Query个数 | 个 | 查询失败的语句个数。 | 
| 运行Merge个数 | 个 | 正在运行的合并任务个数。 | 
| 运行Mutation个数 | 个 | 正在运行的数据订正任务个数。 | 
| 分布式表临时文件个数 | 个 | 分布式表临时文件的个数。 | 
| MaterializeMySQL个数 | 个 | 使用MaterializeMySQL引擎创建的同步数据库个数。 | 
| 冷存使用量 | 字节(Byte) | 冷数据的存储量。 | 
| MaterializeMySQL同步失败个数 | 个 | 使用MaterializeMySQL引擎创建的同步数据库同步失败个数。 | 
| Kafka外表消费发生错误个数 | 个 | 同步失败的Kafka外表消费个数。 | 
| Zookeeper Leader | - | Zookeeper集群的Leader(取值为1的为leader节点)。 | 
| Kafka外表个数 | 个 | 已创建的Kafka外表个数。 | 
| 节点队列堆积量 | 个 | 云数据库ClickHouse节点在Zookeeper上发送队列的数据包数量。 | 
| Zookeeper平均时延 | 毫秒 | Zookeeper节点的平均时延。 | 
| Zookeeper Node数 | 个 | Zookeeper的ZNode数量。 | 
| Zookeeper TPS | 次/秒 | Zookeeper的TPS。 | 
| Zxid使用率 | 百分比(%) | Zookeeper的Zxid使用率(Zxid使用率达到100%时会发生重新选主)。 | 
企业版
| 监控项 | 单位 | 监控说明 | 
| CPU使用率 | 百分比(%) | 集群各节点的平均CPU使用率。 | 
| CCU | 个 | 集群计算资源的使用量。 | 
| 内存使用量 | 字节(Byte) | 集群各节点的内存使用量。 | 
| 内存使用率 | 百分比(%) | 集群各节点的平均内存使用率。 | 
| OSS使用量 | 字节(Byte) | 集群存储资源的使用量。 | 
| Data Part个数 | 个 | 数据分片的总数。 | 
| Inactive Data Part个数 | 个 | 不活跃的数据分片个数。 | 
| Keeper CPU使用率 | 百分比(%) | ClickHouse-Keeper的CPU使用率。 | 
| Keeper内存使用量 | 字节(Byte) | ClickHouse-Keeper的内存使用量。 | 
| Keeper内存使用率 | 百分比(%) | ClickHouse-Keeper的内存使用率。 | 
| 每秒写入大小 | 字节(Byte) | 集群各节点每秒写入的数据量。 | 
| 每秒写入行数 | 行/秒 | 集群各节点每秒写入的行数。 | 
| 网络吞吐 | 字节(Byte) | 磁盘读写的吞吐量(带宽)。 | 
| OSS网络吞吐 | 字节(Byte) | OSS读写的吞吐量(带宽)。 | 
| OSS IOPS | 次/秒 | OSS每秒进行读写操作的次数。 | 
| TPS | 次/秒 | 每秒处理的事务数目。 | 
| QPS | 次/秒 | 每秒处理的查询数目。 | 
| 运行Init Query个数 | 个 | 正在运行的非转发查询语句个数。 | 
| 运行Query个数 | 个 | 正在运行的查询语句个数。 | 
| 失败Query个数 | 个 | 节点中失败的Query数量。 | 
| 失败Insert Query个数 | 个 | 插入失败的语句个数。 | 
| 延迟Insert个数 | 个 | 延迟的插入语句个数。 | 
| 失败Select Query个数 | 个 | 节点中失败的Select Query数量。 | 
| 运行Mutation个数 | 个 | 正在运行的数据订正任务的数。 | 
| 运行Merge个数 | 个 | 正在运行的合并任务个数。 | 
| TCP连接数 | 个 | 集群的TCP连接个数。 | 
| HTTP连接数 | 个 | 集群的HTTP连接个数。 | 
旧版集群监控项说明
旧版集群指的是2021年12月01日之前购买的社区版集群。
| 监控项 | 单位 | 说明 | 
| CPU使用率 | 百分比(%) | 集群各节点的CPU使用率。 | 
| 内存使用率 | 百分比(%) | 集群各节点的内存使用率。 | 
| 内存使用量 | 字节(Byte) | 集群各节点的内存使用量。 | 
| 磁盘使用比率 | 百分比(%) | 磁盘空间的使用量与最多可使用的磁盘空间容量的比值。 | 
| 磁盘使用量 | 字节(Byte) | 使用中的磁盘空间大小。 | 
| 磁盘IOPS | 次/秒 | 磁盘每秒进行读写操作的次数。 | 
| 磁盘IOPS大小 | 字节(Byte) | 磁盘每秒读写数据的大小。 | 
| 数据库连接使用比率 | 百分比(%) | 数据库使用连接数与规格最大可使用连接数的比值。 | 
| 数据库使用连接数 | 个 | 数据库使用中的连接数。 | 
| TPS | 次/秒 | 每秒处理的事务数目。 | 
| 每秒写入行数 | 行/秒 | 各节点每秒写入的行数。 | 
| 每秒写入大小 | 字节(Byte) | 各节点每秒写入的大小。 | 
| QPS | 次/秒 | 每秒处理的查询数目。 | 
| ZK的平均等待时长 | 毫秒 | 反映当前ZooKeeper的响应性能。 | 
| 平均IO等待时长 | 毫秒 | 反映当前IO的响应性能。 | 
| 平均CPU等待时长 | 毫秒 | 反映当前CPU的响应性能。 |