集群 CPU 使用率告警

告警描述

OceanBase 集群中的节点 CPU 过高时触发该告警,此处节点 CPU 是指从操作系统角度查看整体机器的 CPU。

规则信息

添加告警方式可参考:添加报警规则

告警项

指标类型

监控指标

默认阈值

持续时间(连续触发告警周期数)

检测周期

告警级别

OB 节点 CPU 使用率

单指标

节点 / CPU 使用率

90

15

1 分钟

Warn

对系统的影响

  • CPU 过载会导致 TPS/QPS 时延过大或者服务超时,从而影响正常服务。

可能原因

常见原因包括:

  • 业务产生了大查询或热点数据。

  • 集群的资源规划比实际偏小、业务产生了意外热点场景。

处理方法

  1. 检查是否为应用正常的负载。

    1. 登录云数据库 OceanBase,在 集群列表 中,选择集群名,进入 集群工作台

    2. 单击 租户管理,选择租户,进入 租户工作台

    3. 租户工作台性能监控 界面,查看 CPU 使用率 的折线图,判断图中告警时间点的 CPU 使用率在较长时间内(1-7 天)是否突然增大。

      • 有,则为非正常负载。

      • 否,为正常负载(正常流量引起负载过高,考虑对租户规格进行扩容)。

        OB 节点 CPU 使用率过高-1
  2. 可能是大查询或热点流量引起的负载过高。可根据如下不同场景进行相应的处理。

    • SQL 执行存在大查询,在 诊断 页面的 TopSQL 页签中查看是否有 CPU 使用率过高的 SQL。

      • 如有,可对该 SQL 进行优化。

      • 如无,则不为该原因。

        OB 节点 CPU 使用率过高-2
    • 存在 SlowSQL 导致负载过高。在 诊断 页面的 SlowSQL 页签中查看具体的诊断结果,分析是否可能导致 CPU 负载过高。如可能,请对该 SQL 进行优化。

    • 针对问题 SQL 在诊断页面上使用限流功能。