云数据库 OceanBase 为您提供告警服务,支持 OceanBase 集群以及数据评估、数据传输和数据研发等不同维度。用户可使用内置的告警项来满足基本的告警需求,本手册为您介绍各告警的详细信息。
告警信息
每个告警页面中均包含如下信息:
名称 | 说明 |
---|---|
告警描述 | 对每个告警的含义及触发场景进行说明。 |
规则信息 | 介绍每个告警触发的规则,包括 监控指标、指标含义、推荐阈值、持续时间 和 检测周期。 触发规则:系统每个 检测周期 检测一次 监控指标,当 监控指标 值超过 默认阈值 并且持续达到 持续时间 设置的值则上报告警。 |
对系统的影响 | 介绍当告警发生时对系统可能造成的影响。 |
可能原因 | 介绍告警产生的原因,方便您定位问题、处理告警。 |
处理方法 | 可根据每个告警中的具体方法进行处理。 具体请参考 添加报警规则。 |
添加告警规则可参考 添加报警规则 。
相关概念
告警对象
是告警任务所监控的主体,唯一标识一个告警对应的对象,可为一个 OceanBase 集群、一台机器或一个服务。
告警对象的格式为告警规则名和故障实例,如 disk_log_usage_instance(实例:integration_22-ob2)。
告警范围
告警范围用于定义某个告警对应的范围,和指标范围保持一致。
告警范围包括:OceanBase 集群 OBCluster、数据评估、数据传输和数据研发。
规则描述
云数据库 OceanaBase 支持对 租户监控数据详情 和 节点监控数据详情 配置告警规则。各指标对应的资源范围和监控指标如下,用户可以在监控告警根据需要进行配置,建议添加我们推荐的最佳实践。
各租户监控项配置告警的监控指标如下:
监控指标项 | 监控指标名 | 对应添加告警的监控指标 |
---|---|---|
内存使用率 | memory_usage | 租户 / 租户内存使用率 |
CPU 使用率 | cpu_usage_percent | 租户 / CPU 使用率 |
磁盘使用量 | disk_ob_data_size | 集群 / 最大磁盘使用率 注:由于租户间不做存储使用量的隔离,只支持配置集群级别磁盘使用量。 |
连接总数 | total_sessions | 暂不支持配置告警策略。 |
读写连接数 | readwrite_sessions | 暂不支持配置告警策略。 |
只读连接数 | readonly_sessions | 暂不支持配置告警策略。 |
写请求量 | tps | 租户 / 写请求量 |
读请求量 | QPS | 租户 / 读请求量 |
写请求响应时间 | tps_rt | 租户 / 写请求响应时间 |
读请求响应时间 | qps_rt | 租户 / 读请求响应时间 |
等待队列 | request_queue_rt | 租户 / 等待队列 |
事务提交量 | trans_user_trans_count | 租户 / 事务提交量 |
事务响应时间 | trans_commit_rt | 租户 / 事务提交响应时间 |
各节点监控项配置告警的监控指标如下:
监控指标项 | 监控指标名 | 对应添加告警的监控指标 |
---|---|---|
CPU 使用率 | cpu_util | 节点 / CPU 使用率 |
Load | load_load1 | 节点 / Load |
机器内存使用率 | machine_mem_used_percent | 节点 / 机器内存使用率 |
磁盘读 | io_read_bytes | 节点 / 磁盘读 |
磁盘写 | io_write_bytes | 节点 / 磁盘写 |
磁盘 IO 等待 | io_await | 节点 / 磁盘 IO 等待 |
包流入速率 | traffic_bytin | 节点 / 包流入速率 |
包流出速率 | traffic_bytout | 节点 / 包流出速率 |
重传率 | tcp_retran | 节点 / 重传率 |
连接总数 | total_sessions | 暂不支持配置告警策略。 |
读写连接数 | readwrite_sessions | 暂不支持配置告警策略。 |
只读连接数 | readonly_sessions | 暂不支持配置告警策略。 |
告警等级
每个告警项都有对应的告警级别。
级别 | 英文含义 | 中文含义 | 告警方式 | 说明 |
---|---|---|---|---|
1 | Critical | 严重 | 电话+短信+邮件+钉钉机器人 | 系统可用性下降,需紧急修复,避免完全不可用。或系统仍可用,但即将达到不可用状态,需采取措施防止可用性下降。 如机器内存使用率大于 90% 持续 3 分钟。 |
2 | Warn | 警告 | 短信+邮件+钉钉机器人 | 根据趋势判断,系统关键性能指标正在下降,但还未达到触发警告的程度,此时可通过排查发现潜在的问题,避免警告产生(保留类型,目前尚未有匹配的告警项)。 |
3 | Info | 普通 | 邮件+钉钉机器人 | 操作提醒,本质上不是告警,通常是管理员执行重要操作,如管理员执行集群下线操作。 该级别的告警恢复后,不会产生告警恢复的通知。 |