云消息队列 Kafka 版集成了HouseKeeping(健康巡检组件),定时对集群进行全面扫描诊断,并能针对不健康的状态进行告警。本文将为您详细介绍云消息队列 Kafka 版的巡检功能。
巡检说明
为了进一步提升集群的稳定性和服务的可靠性,云消息队列 Kafka 版团队对巡检功能进行了显著增强。这一增强旨在高效地发现和解决集群中的部分异常问题,从而进一步确保用户业务稳定运行。
增加了秒级收发能力巡检。
巡检通过内部 Topic 快速检测集群的消息收发能力。当出现消息收发失败、延迟上升、吞吐异常下跌、依赖组件连接异常等问题时,能够立即向云消息队列 Kafka 版团队告警。这种及时的告警机制能够使技术团队迅速响应和解决问题,从而降低对用户业务的影响,确保业务的连续性和稳定性。
对用户Topic的位点和Metadata等信息进行严格校验。
这种校验机制确保了内存数据的正确性和一致性,防止因数据不一致导致的潜在问题。
具备强大的监控能力,可以实时监控Kafka进程的状态。
在系统运行过程中,如果出现IO Hang、线程死锁、JVM Crash、连接洪流、内存泄漏等异常问题,巡检功能能够迅速做出反应,自动重新启动Kafka进程。这种自动化的处理机制进一步确保了云消息队列 Kafka 版服务的连续性和可用性,大大缩短了从发现问题到恢复正常所需的时间窗口。
注意事项
内部巡检Topic为:
__alikafka_housekeeping_local_topic
、__alikafka_housekeeping_cloud_topic
。重要云消息队列 Kafka 版实例部署成功后,系统会自动创建内部巡检Topic。
内部巡检Topic不支持删除操作,只有在删除实例时才会执行删除。
在最小规格下,集群巡检中,一个Topic会产生大约100 B/s的生产、消费流量和10 M的存储消耗(带宽消耗与集群规格正相关)。