本文介绍实例风险的背景信息及如何查看实例风险。
背景信息
概述
消息队列Kafka版实例的实时诊断功能定期对实例进行检测,并支持查看诊断发现的问题、提供修复建议并将紧急且不健康的风险问题通知给相关联系人。
实现方案

报警通知说明
- 仅紧急且不健康的报警会发送报警通知。
- 如果未添加报警联系人,则默认向实例所属阿里云账号联系人发送报警通知。
- 如果添加了报警联系人,则会向报警联系人发送报警通知。仅当报警发送时间在设置的联系人接收报警通知时间范围内时,才可以接收到报警通知。更多信息,请参见管理预警联系人。
风险项
主要诊断实例的以下风险项:
- 集群流量情况
- 磁盘水位情况
- 版本升级情况
- 连接过多情况
- 消息发送使用不当
- 碎片化问题
- 同步发送问题
- 消费使用不当
- 频繁Rebalance
- 订阅过多Topic
- 客户端使用不当
- 同分区被重复分配
- 频繁提交位点
- 配额剩余情况
- Topic配额剩余情况
- 分区配额剩余情况
- 单分区Topic风险
- Topic分区倾斜风险
- 磁盘倾斜风险
前提条件
您已创建并部署消息队列Kafka版实例,且实例已存在风险项。
操作步骤
- 登录消息队列Kafka版控制台,在概览页面的资源分布区域,选择地域。
- 在实例列表页面,单击目标实例名称。
- 在实例详情页面,单击实例风险页签。在实例风险页签中,查看实例风险项。
参数 描述 示例值 风险类型 当前实例风险的类型描述。 消费接收数据耗时较大的 Group 指标等级 当前实例指标的等级。取值: - 紧急
- 重要
- 一般
紧急 风险状态 当前实例的健康状态。取值: - 待修复
- 已修复
待修复 上次发现风险时间 上次发现该风险的时间。 2022年3月31日 操作 当前实例风险项可以执行的动作。 - 详情:查看当前实例风险详细信息和修复建议。
在目标风险操作列,单击详情。
- 修改报警状态:风险修复后,您可以设置风险状态为已修复,或者在近一个月内忽略未修复的风险。
在目标风险操作列,单击修改报警状态。
说明 风险修复后,不会再发送告警通知。如果风险修复后,出现相同风险,系统会在7天后再次发送风险报警通知。 - 删除:风险修复并修改风险状态为已修复后,可以删除风险。
在目标风险操作列,单击删除。
建议:修改风险状态为已修复后,为了避免因为一些原因,例如脏数据未实时清理,再次产生报警,建议您等待一段时间后,再删除该风险。等待时间建议为7天。
无