查看实例风险

云消息队列 Kafka 版实例的实时诊断功能能够定期对实例进行检测,支持查看诊断发现的问题、提供修复建议,并将异常的检查项上报告警给相关联系人。

实现方案

image

报警通知说明

  • 仅紧急且不健康的报警会发送报警通知。

  • 如果未添加报警联系人,则默认向实例所属阿里云账号联系人发送报警通知。

  • 如果添加了报警联系人,则会向报警联系人发送报警通知。仅当报警发送时间在设置的联系人接收报警通知时间范围内时,才可以接收到报警通知。更多信息,请参见管理预警联系人

检测项

说明

若检测出实例存在风险,请参考控制台上提示的修复建议进行修复。

资源类型

指标名称

CPU和内存

CPU消耗百分比

内存消耗百分比

TCP连接

TCP连接数

公网TCP连接数

磁盘

磁盘倾斜问题

磁盘使用率

磁盘负载率

Topic

生产消息耗时

生产消息落盘耗时

生产消息排队耗时

生产消息限流耗时

生产消息格式转换耗时

Topic数量配额

Topic 格式转换

同步发送问题

碎片化发送问题

单分区Topic风险

Topic分区倾斜问题

生产流量

分区数量配额

分区分配策略问题

Group

消费消息接收耗时

消费消息排队耗时

消费消息读磁盘耗时

消费消息读磁盘耗时

消费消息格式转换时间

Group数量配额

消费流量

Group与Topic的订阅关系

服务端小版本升级

消费位点提交频率

存在Rebalance的Group

消费客户端主动离开队列

使用Sarama Go客户端

操作步骤

  1. 登录云消息队列 Kafka 版控制台,在概览页面的资源分布区域,选择地域。

  2. 实例列表页面,单击目标实例名称。

  3. 实例详情页面,单击实例风险页签。

    实例风险页签中,查看实例风险项。

    参数

    描述

    示例值

    风险类型

    当前实例风险的类型描述。

    消费接收数据耗时较大的 Group

    指标等级

    当前实例指标的等级。取值:

    • 尽快修复

    • 重要

    • 一般

    重要

    风险状态

    当前实例的健康状态。取值:

    • 待修复

    • 已修复

    待修复

    上次发现风险时间

    上次发现该风险的时间。

    2022年3月31日

    操作

    当前实例风险项可以执行的动作。

    • 详情:查看当前实例风险详细信息和修复建议。

      在目标风险操作列,单击详情

    • 修改报警状态:风险修复后,您可以设置风险状态已修复,或者在近一个月内忽略未修复的风险。

      在目标风险操作列,单击修改报警状态

      说明

      风险修复后,不会再发送告警通知。如果风险修复后,出现相同风险,系统会在7天后再次发送风险报警通知。

    • 删除:风险修复并修改风险状态为已修复后,可以删除风险。

      在目标风险操作列,单击删除

      建议:修改风险状态已修复后,为了避免因为一些原因,例如脏数据未实时清理,再次产生报警,建议您等待一段时间后,再删除该风险。等待时间建议为7天。

相关文档

实例的其他常见问题及解决办法,请参见常见问题