本文介绍实例风险的背景信息及如何查看实例风险。

背景信息

概述

消息队列Kafka版实例的实时诊断功能定期对实例进行检测,并支持查看诊断发现的问题、提供修复建议并将紧急且不健康的风险问题通知给相关联系人。

实现方案

instance-risk

报警通知说明

  • 仅紧急且不健康的报警会发送报警通知。
  • 如果未添加报警联系人,则默认向实例所属阿里云账号联系人发送报警通知。
  • 如果添加了报警联系人,则会向报警联系人发送报警通知。仅当报警发送时间在设置的联系人接收报警通知时间范围内时,才可以接收到报警通知。更多信息,请参见管理预警联系人

风险项

主要诊断实例的以下风险项:
  • 集群流量情况
  • 磁盘水位情况
  • 版本升级情况
  • 连接过多情况
  • 消息发送使用不当
    • 碎片化问题
    • 同步发送问题
  • 消费使用不当
    • 频繁Rebalance
    • 订阅过多Topic
    • 客户端使用不当
    • 同分区被重复分配
    • 频繁提交位点
  • 配额剩余情况
    • Topic配额剩余情况
    • 分区配额剩余情况
  • 单分区Topic风险
  • Topic分区倾斜风险
  • 磁盘倾斜风险

前提条件

您已创建并部署消息队列Kafka版实例,且实例已存在风险项。

操作步骤

  1. 登录消息队列Kafka版控制台,在概览页面的资源分布区域,选择地域。
  2. 实例列表页面,单击目标实例名称。
  3. 实例详情页面,单击实例风险页签。
    实例风险页签中,查看实例风险项。
    参数描述示例值
    风险类型当前实例风险的类型描述。 消费接收数据耗时较大的 Group
    指标等级当前实例指标的等级。取值:
    • 紧急
    • 重要
    • 一般
    紧急
    风险状态当前实例的健康状态。取值:
    • 待修复
    • 已修复
    待修复
    上次发现风险时间上次发现该风险的时间。2022年3月31日
    操作当前实例风险项可以执行的动作。
    • 详情:查看当前实例风险详细信息和修复建议。

      在目标风险操作列,单击详情

    • 修改报警状态:风险修复后,您可以设置风险状态已修复,或者在近一个月内忽略未修复的风险。

      在目标风险操作列,单击修改报警状态

      说明 风险修复后,不会再发送告警通知。如果风险修复后,出现相同风险,系统会在7天后再次发送风险报警通知。
    • 删除:风险修复并修改风险状态为已修复后,可以删除风险。

      在目标风险操作列,单击删除

      建议:修改风险状态已修复后,为了避免因为一些原因,例如脏数据未实时清理,再次产生报警,建议您等待一段时间后,再删除该风险。等待时间建议为7天。