集群数据盘使用率告警

告警描述

OceanBase 集群数据盘使用率过高触发告警。

由于磁盘扩容需要一定的操作时间,对磁盘使用率,一般建议配置两个指标,Warn 警告和 Critical 严重需要处理。

规则信息

添加告警方式可参考:添加报警规则

告警项

指标类型

监控指标

默认阈值

持续时间(连续触发告警周期数)

检测周期

告警级别

OB 节点数据盘使用率

单指标

节点 / 磁盘使用率

80%

15

1 分钟

Warn

90%

15

1分钟

Critical

对系统的影响

  • 业务服务停写风险。

可能原因

  1. 业务发展过快导致数据盘容量不足。

  2. 集群的回收站开启,并且回收站中存在过多数据。

  3. 数据合并转储的临时数据。

处理方法

  1. 打开 租户管理 页面,查看租户的 已使用磁盘 ,如果所有租户累计使用磁盘空间很大,表示业务数据量确实很大,需要对集群做扩容处理。租户

  2. 登录业务租户,查询是否开启了回收站:show variables like 'recyclebin'ON 表示开启, OFF 表示关闭回收站

    1. 如果开启了回收站,可以继续执行 sql 命令 purge recyclebin 来清空回收站里的数据,并且可以通过 sql 命令 set global recyclebin= 0 来关闭回收站;

    2. 回收站清空之后,等待一段时间观察磁盘使用量是否下降;

  3. 在集群控制台首页查看集群的合并记录,然后根据最近几次的合并时间,去查看对应时间段的磁盘监控数据,如果磁盘使用上涨发生在合并期间,合并结束之后可以下降到正常水位,则可以无需任何操作,在合并期间预期会有一定量的磁盘膨胀,具体需要额外需要使用多少磁盘空间,跟具体的业务场景有关,一般是发生在大量insert 或者随机update 的业务场景下。