可观测监控 Prometheus 版可通过配置接入参数主动拉取Kafka的性能指标,实现对其运行状况的实时监控和数据分析。
前提条件
容器服务环境
-
已开通可观测监控Prometheus版。具体操作,请参见Prometheus 实例计费。
-
已创建Kubernetes集群。具体操作,请参见创建ACK托管集群。
-
已开通阿里云资源中心。具体操作,请参见开通资源中心。
ECS(VPC)
-
已开通可观测监控Prometheus版。具体操作,请参见Prometheus 实例计费。
-
已创建ECS实例。具体操作,请参见通过控制台使用ECS实例(快捷版)。
-
已开通阿里云资源中心。具体操作,请参见开通资源中心。
接入Kafka
登录Prometheus控制台,在左侧导航栏单击接入中心。
-
单击Kafka卡片,然后根据控制台指引完成组件接入。下面对重点配置项进行说明。
容器服务环境
配置项
说明
Pod 选择标签
部署JMX Agent时,为Pod配置的标签和标签值,可观测监控 Prometheus 版通过此标签进行服务发现(Service Discovery)。详细信息,请参见如何部署和配置Kafka JMX Agent。
Metric 采集间隔
监控数据采集时间间隔,默认15s。
ECS(VPC)
配置项
说明
Kafka 集群名称
每次接入,需使用不同的集群名称,以防止指标重复采集导致大盘展示错误。
服务地址
可以使用Kafka Broker的IP或DNS地址,多个Broker地址之间使用英文半角逗号或分号来分隔。
如:192.168.0.1:9092,10.0.11.123:9092
开启 SASL
选择Kafka服务端是否使用SASL。
SASL 用户名
如果开启SASL,则需要填写对应的用户名。
SASL 密码
如果开启SASL,则需要填写对应的用户密码。
SASL 方法
选择SASL方法,目前支持plain、scram-sha512和scram-sha256。
开启 TLS
选择Kafka服务端是否使用TLS。
忽略 TLS 安全校验
如果Kafka服务端开启TLS,且是自签名证书,则选择忽略TLS安全校验。
Metric 采集间隔
监控数据采集时间间隔,默认15s。
自定义标签
通过自定义标签向Prometheus收集的指标中添加自定义键值对标签,便于在使用Grafana等工具时对这些指标进行细粒度的组织、查询、监控和分析。更多信息,请参见VPC环境主机监控自定义标签注入指标。
说明标签名不能包含特殊字符,如短划线(-)、半角句号(.)、百分号(%)等,这些字符在Prometheus中有特殊含义。
注入的标签需要是Prometheus允许的有效的Key-Value标签格式。
查看Kafka组件状态
已接入的组件可单击Prometheus控制台左侧导航栏中的接入管理查看。接入管理页面包括已接入环境、已接入组件和大盘查询页签,您可以查看Targets、指标、大盘、告警等信息。
Targets
您可以在该页签查看集成默认Job发现的Targets列表。
Targets 页面以列表形式展示各采集任务的 Endpoint、State、Labels、Last Scrape、Scrape Duration、Error 等信息。当某个 Target 的 State 为 DOWN(红色标签)时,Error 列会显示具体的错误原因,例如 connection refused,表示目标端点不可达,需要检查对应实例的服务端口是否正常监听。
指标采集
您可以在该页签查看具体的指标信息并对指标进行废弃配置。具体操作,请参见配置废弃指标。
在指标采集页签下选择自定义采集,可查看已配置的采集任务列表,包含名称、job名称、所属组件、服务发现方式、采集路径、采集间隔等信息。例如kafka和ecs-node-exporter任务,服务发现方式为kubernetes_sd_configs,采集路径为/metrics,采集间隔为15s。每个任务支持关闭、查看配置、删除操作,也可通过新增按钮添加新的采集任务。
大盘列表
您可以单击大盘名称,查看对应Grafana大盘。
在大盘 Tab 页中,可通过搜索框按大盘名称搜索,或按标签(如 Kafka)筛选。表格展示大盘名称与对应标签,例如默认包含 Kafka Basic 大盘。
以 Prometheus Agent 大盘为例,顶部提供 job、instance、agent 三个筛选下拉框。大盘包含以下面板:Agent 运行状态(预期副本数、运行副本数、Targets 数量、Series 抓取总量)、Agent 发现/抓取异常(Job 服务发现异常数、Job 抓取异常数、Targets 抓取异常数)、Agent 下发配置异常(sendConfig 异常、sendTargets 异常)、Agent 采集处理异常(基础指标采集异常 Job 数量等)、Agent 运行版本,以及底部 Agent 状态总览 表格,展示 agent 名称、heartbeat、Targets、Series、writeArms、pod_name、memoryUsed、memoryLimit、cpuUsed、cpuLimit 等指标。
相关文档
-
对关键指标配置告警规则,实时监控指标的性能健康状态,以便在指标异常状态时能及时发现并处理。具体操作,请参见创建Prometheus告警规则。
-
使用Prometheus监控Kafka的更多操作,请参见如何使用Prometheus监控Kafka。