概述

云数据库 OceanBase 为您提供告警服务,支持 OceanBase 集群以及数据评估、数据传输和数据研发等不同维度。用户可使用内置的告警项来满足基本的告警需求,本手册为您介绍各告警的详细信息。

告警信息

每个告警页面中均包含如下信息:

名称

说明

告警描述

对每个告警的含义及触发场景进行说明。

规则信息

介绍每个告警触发的规则,包括 监控指标指标含义推荐阈值持续时间检测周期

触发规则:系统每个 检测周期 检测一次 监控指标,当 监控指标 值超过 默认阈值 并且持续达到 持续时间 设置的值则上报告警。

对系统的影响

介绍当告警发生时对系统可能造成的影响。

可能原因

介绍告警产生的原因,方便您定位问题、处理告警。

处理方法

可根据每个告警中的具体方法进行处理。

具体请参考 添加报警规则

说明

添加告警规则可参考 添加报警规则

相关概念

告警对象

是告警任务所监控的主体,唯一标识一个告警对应的对象,可为一个 OceanBase 集群、一台机器或一个服务。

告警对象的格式为告警规则名和故障实例,如 disk_log_usage_instance(实例:integration_22-ob2)。

告警范围

告警范围用于定义某个告警对应的范围,和指标范围保持一致。

告警范围包括:OceanBase 集群 OBCluster、数据评估、数据传输和数据研发。

规则描述

云数据库 OceanaBase 支持对 租户监控数据详情节点监控数据详情 配置告警规则。各指标对应的资源范围和监控指标如下,用户可以在监控告警根据需要进行配置,建议添加我们推荐的最佳实践

各租户监控项配置告警的监控指标如下:

监控指标项

监控指标名

对应添加告警的监控指标

内存使用率

memory_usage

租户 / 租户内存使用率

CPU 使用率

cpu_usage_percent

租户 / CPU 使用率

磁盘使用量

disk_ob_data_size

集群 / 最大磁盘使用率

注:由于租户间不做存储使用量的隔离,只支持配置集群级别磁盘使用量。

连接总数

total_sessions

暂不支持配置告警策略。

读写连接数

readwrite_sessions

暂不支持配置告警策略。

只读连接数

readonly_sessions

暂不支持配置告警策略。

写请求量

tps

租户 / 写请求量

读请求量

QPS

租户 / 读请求量

写请求响应时间

tps_rt

租户 / 写请求响应时间

读请求响应时间

qps_rt

租户 / 读请求响应时间

等待队列

request_queue_rt

租户 / 等待队列

事务提交量

trans_user_trans_count

租户 / 事务提交量

事务响应时间

trans_commit_rt

租户 / 事务提交响应时间

各节点监控项配置告警的监控指标如下:

监控指标项

监控指标名

对应添加告警的监控指标

CPU 使用率

cpu_util

节点 / CPU 使用率

Load

load_load1

节点 / Load

机器内存使用率

machine_mem_used_percent

节点 / 机器内存使用率

磁盘读

io_read_bytes

节点 / 磁盘读

磁盘写

io_write_bytes

节点 / 磁盘写

磁盘 IO 等待

io_await

节点 / 磁盘 IO 等待

包流入速率

traffic_bytin

节点 / 包流入速率

包流出速率

traffic_bytout

节点 / 包流出速率

重传率

tcp_retran

节点 / 重传率

连接总数

total_sessions

暂不支持配置告警策略。

读写连接数

readwrite_sessions

暂不支持配置告警策略。

只读连接数

readonly_sessions

暂不支持配置告警策略。

告警等级

每个告警项都有对应的告警级别。

级别

英文含义

中文含义

告警方式

说明

1

Critical

严重

电话+短信+邮件+钉钉机器人

系统可用性下降,需紧急修复,避免完全不可用。或系统仍可用,但即将达到不可用状态,需采取措施防止可用性下降。

如机器内存使用率大于 90% 持续 3 分钟。

2

Warn

警告

短信+邮件+钉钉机器人

根据趋势判断,系统关键性能指标正在下降,但还未达到触发警告的程度,此时可通过排查发现潜在的问题,避免警告产生(保留类型,目前尚未有匹配的告警项)。

3

Info

普通

邮件+钉钉机器人

操作提醒,本质上不是告警,通常是管理员执行重要操作,如管理员执行集群下线操作。

该级别的告警恢复后,不会产生告警恢复的通知。