云消息队列 Kafka 版实例的实时诊断功能能够定期对实例进行检测,支持查看诊断发现的问题、提供修复建议,并将异常的检查项上报告警给相关联系人。
实现方案
报警通知说明
仅紧急且不健康的报警会发送报警通知。
如果未添加报警联系人,则默认向实例所属阿里云账号联系人发送报警通知。
如果添加了报警联系人,则会向报警联系人发送报警通知。仅当报警发送时间在设置的联系人接收报警通知时间范围内时,才可以接收到报警通知。更多信息,请参见管理预警联系人。
检测项
若检测出实例存在风险,请参考控制台上提示的修复建议进行修复。
资源类型 | 指标名称 |
CPU和内存 | CPU消耗百分比 |
内存消耗百分比 | |
TCP连接 | TCP连接数 |
公网TCP连接数 | |
磁盘 | 磁盘倾斜问题 |
磁盘使用率 | |
磁盘负载率 | |
Topic | 生产消息耗时 |
生产消息落盘耗时 | |
生产消息排队耗时 | |
生产消息限流耗时 | |
生产消息格式转换耗时 | |
Topic数量配额 | |
Topic 格式转换 | |
同步发送问题 | |
碎片化发送问题 | |
单分区Topic风险 | |
Topic分区倾斜问题 | |
生产流量 | |
分区数量配额 | |
分区分配策略问题 | |
Group | 消费消息接收耗时 |
消费消息排队耗时 | |
消费消息读磁盘耗时 | |
消费消息读磁盘耗时 | |
消费消息格式转换时间 | |
Group数量配额 | |
消费流量 | |
Group与Topic的订阅关系 | |
服务端小版本升级 | |
消费位点提交频率 | |
存在Rebalance的Group | |
消费客户端主动离开队列 | |
使用Sarama Go客户端 |
操作步骤
登录云消息队列 Kafka 版控制台,在概览页面的资源分布区域,选择地域。
在实例列表页面,单击目标实例名称。
在实例详情页面,单击实例风险页签。
在实例风险页签中,查看实例风险项。
参数
描述
示例值
风险类型
当前实例风险的类型描述。
消费接收数据耗时较大的 Group
指标等级
当前实例指标的等级。取值:
尽快修复
重要
一般
重要
风险状态
当前实例的健康状态。取值:
待修复
已修复
待修复
上次发现风险时间
上次发现该风险的时间。
2022年3月31日
操作
当前实例风险项可以执行的动作。
详情:查看当前实例风险详细信息和修复建议。
在目标风险操作列,单击详情。
修改报警状态:风险修复后,您可以设置风险状态为已修复,或者在近一个月内忽略未修复的风险。
在目标风险操作列,单击修改报警状态。
说明风险修复后,不会再发送告警通知。如果风险修复后,出现相同风险,系统会在7天后再次发送风险报警通知。
删除:风险修复并修改风险状态为已修复后,可以删除风险。
在目标风险操作列,单击删除。
建议:修改风险状态为已修复后,为了避免因为一些原因,例如脏数据未实时清理,再次产生报警,建议您等待一段时间后,再删除该风险。等待时间建议为7天。
无
相关文档
实例的其他常见问题及解决办法,请参见常见问题。