告警描述
OceanBase 租户在单节点上负载过高时触发该告警。
租户节点负载的计算方式为:该租户所在的节点 cpu usage / 该租户的 cpu。
规则信息
告警项 | 指标类型 | 监控指标名 | 默认阈值 | 持续时间(连续触发告警周期数) | 检测周期 | 告警级别 |
---|---|---|---|---|---|---|
租户 CPU 负载告警 | 单指标 | 租户 / CPU 使用率 | 90 | 15 | 1 分钟 | Warn |
对系统的影响
CPU 过载会导致 TPS/QPS 时延过大或者服务超时,从而影响正常服务。
可能原因
常见原因包括:
业务产生了大查询或热点数据。
租户的资源规划比实际偏小、业务产生了意外热点场景。
处理方法
检查是否是应用正常的负载。
登录云数据库 OceanBase,在 集群列表 中,选择集群名,进入 集群工作台。
单击 租户管理,选择租户,进入 租户工作台。
在 租户工作台 的 性能监控 界面,查看 CPU 使用率 的折线图,判断图中告警时间点的 CPU 使用率在较长时间内(1-7 天)是否突然增大。
有,则为非正常负载。
否,为正常负载(正常流量引起负载过高,考虑对租户规格进行扩容)。
可能是大查询或热点流量引起的负载过高。可根据如下不同场景进行相应的处理。
SQL 执行存在大查询,在 诊断 页面的 TopSQL 页签中查看是否有 CPU 使用率过高的 SQL。
如有,可对该 SQL 进行优化。
如无,则不为该原因。
存在 SlowSQL 导致负载过高。在 诊断 页面的 SlowSQL 页签中查看具体的诊断结果,分析是否可能导致 CPU 负载过高。如可能,请对该 SQL 进行优化。
针对问题 SQL 在诊断页面上使用限流功能。
文档内容是否对您有帮助?