告警描述
OceanBase 集群数据盘使用率过高触发告警。
由于磁盘扩容需要一定的操作时间,对磁盘使用率,一般建议配置两个指标,Warn 警告和 Critical 严重需要处理。
规则信息
添加告警方式可参考:添加报警规则
告警项 | 指标类型 | 监控指标 | 默认阈值 | 持续时间(连续触发告警周期数) | 检测周期 | 告警级别 |
---|---|---|---|---|---|---|
OB 节点数据盘使用率 | 单指标 | 节点 / 磁盘使用率 | 80% | 15 | 1 分钟 | Warn |
90% | 15 | 1分钟 | Critical |
对系统的影响
业务服务停写风险。
可能原因
业务发展过快导致数据盘容量不足。
集群的回收站开启,并且回收站中存在过多数据。
数据合并转储的临时数据。
处理方法
打开 租户管理 页面,查看租户的 已使用磁盘 ,如果所有租户累计使用磁盘空间很大,表示业务数据量确实很大,需要对集群做扩容处理。
登录业务租户,查询是否开启了回收站:show variables like 'recyclebin', ON 表示开启, OFF 表示关闭
如果开启了回收站,可以继续执行 sql 命令 purge recyclebin 来清空回收站里的数据,并且可以通过 sql 命令 set global recyclebin= 0 来关闭回收站;
回收站清空之后,等待一段时间观察磁盘使用量是否下降;
在集群控制台首页查看集群的合并记录,然后根据最近几次的合并时间,去查看对应时间段的磁盘监控数据,如果磁盘使用上涨发生在合并期间,合并结束之后可以下降到正常水位,则可以无需任何操作,在合并期间预期会有一定量的磁盘膨胀,具体需要额外需要使用多少磁盘空间,跟具体的业务场景有关,一般是发生在大量insert 或者随机update 的业务场景下。
文档内容是否对您有帮助?