本文介绍Kafka监控的概览和详细信息。

前提条件

已创建Kafka类型的集群。

监控入口

  1. 登录阿里云 E-MapReduce 控制台
  2. 单击上方的监控大盘
  3. 在左侧导航栏中,单击集群监控
  4. 集群状态列表页面,单击Kafka类型集群所在行的监控详情
  5. 在左侧导航栏中,单击服务监控 > Kafka,进入Kafka服务监控概览页面。

KAFKA服务监控概览页面

kafka_

Kafka服务监控概览页面展示了Kafka基础指标图表、Kafka服务最近一天的异常和告警列表和 Kafka broker状态列表。

Kafka broker状态列表列出了broker所在主机的CPU、内存、堆内存、非堆内存使用情况,以及文件描述符使用情况。可单击主机名称,进入 broker监控详情页面。

KAFKA Broker 监控详情页面

  • KAFKA Broker进程JVM指标:展示堆内存和非堆内存使用情况。kafka_jvm
  • KAFKA Broker进程文件描述符信息:展示了 broker 进程可以使用的最大文件描述符数目和当前已经使用的文件描述符数目。kafka_broker
  • KAFKA Broker核心指标。
    • 失败的请求数:包括每秒失败的Fetch请求数和每秒失败的Produce请求数。
    • Broker网络流量:包括Broker入方向网络流量和Broker出方向网络流量。
    • Offline Count:包括离线的日志目录、离线的副本数和离线的分区数。
    • Replica Manager Disk Usage:包括最大值、最小值、平均值和标准差。
    • Message:每秒流入的消息数。
    • Total Fetch Requests:每秒Fetch请求总数。
  • KAFKA Broker进程启停历史。broker_history

    表格具体含义,请参见下表。

    参数 说明
    时间 操作发生的时间点。
    启动/重启/停止 说明本次对组件操作的类型,包括启动、停止和重启。
    是否自动拉起 说明本次操作是否由E-MapReduce的保活机制自动拉起,对于异常退出的组件,EMR Agent自动拉起保证服务的可用性。
    启动用户 本次操作的Linux用户,对于停止状态的进程无该信息。
    PID 本次操作产生的进程 ID,对于停止状态的进程无该信息。
    PPID 本次操作产生的父进程 ID,对于停止状态的进程无该信息。
    启动参数 本次操作产生的进程的详细启动参数,对于停止状态的进程无该信息。