作为一款典型的分布式中间件产品,云消息队列 RocketMQ 版被广泛应用于业务核心链路中,每条消息都关联着核心业务数据的变化,通过可观测能力及时发现问题、定位问题、解决问题对于业务运行是一项重要的保障能力。本文介绍云消息队列 RocketMQ 版可观测体系的主要功能。

云消息队列 RocketMQ 版的可观测体系主要由指标(Metrics)、轨迹(Tracing)和日志(Logging)组成。

  • 指标

    云消息队列 RocketMQ 版中定义了详细的Metrics指标,这些指标覆盖生产者、消费者、服务端及消息收发关键接口和流程的统计数据,并支持从实例、Topic和Group等多个维度进行聚合展示,帮助您实时监控消息业务或云消息队列 RocketMQ 版服务的运行状态。

    和4.x版本相比,云消息队列 RocketMQ 版服务端5.x版本增加了消息堆积场景相关指标、关键接口的耗时指标、错误分布指标、存储读写流量等指标,帮助您更好地监控异常场景。

  • 消息轨迹

    在分布式应用中,云消息队列 RocketMQ 版作为全链路中异步解耦的关键服务,提供的Tracing数据可有效将业务上下游信息串联起来,帮助您更好地排查异常,定位问题。

    和4.x版本相比,云消息队列 RocketMQ 版服务端5.x版本支持OpenTelemetry开源标准,提供更加丰富的轨迹指标,针对消费场景、高级消息类型场景等细化轨迹内容,为问题定位提供更多关键信息。

  • 日志

    云消息队列 RocketMQ 版为不同的异常情况定义唯一的错误码及错误信息,并划分不同的错误级别,您可以根据客户端返回的错误码信息快速获取异常原因。

    和4.x版本相比,云消息队列 RocketMQ 版服务端5.x版本统一了ErrorCode和ErrorMessage,异常日志中增加了RequestID、资源信息,细化了错误信息,保证日志内容明确可靠。