阿里云Prometheus监控具有监控数据采集、存储、计算、数据展示、报警等能力。监控指标覆盖广,涵盖容器、Kubernetes、云服务、中间件、数据库、应用以及业务等多种监控数据。本文介绍Prometheus监控支持的主要功能。

监控对象接入

功能 功能说明
创建Prometheus实例 支持创建多种类型的Prometheus实例。您可以根据需求选择创建任一类型的Prometheus实例
集成中心概述 集成中心作为Prometheus实例的入口,将容器服务、自定义服务发现、组件监控的关联数据和高频操作进行集中化展示。
健康巡检组件接入(新版)

支持云服务巡检、ACK Service巡检以及自定义健康巡检方式。

定期对监控的服务进行连接测试。帮助您掌握服务的健康状况,及时发现异常,从而采取针对性的有效措施。

监控指标采集

功能 功能说明
服务发现

默认服务发现:是Prometheus监控内置的服务发现功能,在接入Prometheus监控时自动开启。

当前默认服务发现指标采集对象为Kubernetes集群下所有Namespace包含的Pod。

ServiceMonitor:支持手动添加ServiceMonitor配置Prometheus监控的采集规则进行指标采集。
PodMonitor:支持手动添加PodMonitor配置Prometheus监控的采集规则进行指标采集。
编辑Prometheus.yaml 支持通过编辑Prometheus.yaml的方式为应用配置Prometheus监控的采集规则。
查看指标

支持查看基础指标和自定义指标。

对于不再需要监控的指标,支持配置废弃指标。

Targets 支持通过Targets直观查看正在被抓取的目标,以及抓取状态是否正常。同时支持查看目标中暴露的metrics。

监控数据处理

功能 功能说明
获取Remote Write地址

Remote Write功能支持作为远程数据库存储Prometheus监控数据。

您可以使用Remote Read地址和Remote Write地址,将自建Prometheus的监控数据存储到阿里云Prometheus实例中,实现远程存储。

获取Remote Read地址
编辑RecordingRule.yaml 预聚合(Recording Rule)可以对落地的指标数据做二次开发。可以配置预聚合规则将计算过程提前到写入端,减少查询端资源占用,尤其在大规模集群和复杂业务场景下可以有效的降低PromQL的复杂度,从而提高查询性能,解决用户配置以及查询慢的问题。
全局聚合实例 提供在当前地域下所有Prometheus实例的一个虚拟聚合实例。针对这个虚拟聚合实例可以实现统一的指标查询和告警。

监控数据展示

功能 功能说明
查看Grafana大盘 预置丰富的Grafana大盘,同时支持自定义大盘来展示监控数据。
获取HTTP API地址 提供了HTTP API地址,您可以通过该地址将阿里云Prometheus实例的监控数据接入自建的Grafana大盘展示数据,也可以获取阿里云Prometheus监控数据进行二次开发。

告警

功能 功能说明
创建告警规则

预置多种报警规则,支持针对特定监控对象自定义报警规则。

当规则被触发时,系统会以您指定的报警方式向报警联系人分组发送报警信息,以提醒报警联系人采取必要的问题解决措施。

智能检测算子 支持通过智能检测算子算法自动地发现KPI时间序列数据中的异常波动,实现时间序列的异常检测,为后续的告警、自动止损、根因分析等提供决策依据。

Prometheus实例管理

功能 功能说明
调整指标存储时长 支持手动设置指标的存储天数。
设置Agent副本数 支持Agent副本数水平伸缩(HPA)自动扩容的能力,均衡分解采集任务,实现动态扩缩,解决开源版本无法水平扩展与高可用问题。
探针管理 支持查看Prometheus探针的基本信息和健康检查结果、设置Agent副本数、重启探针。
说明
  • 不同类型的Prometheus实例支持的功能可能会有所差异。
  • Prometheus监控仅支持Helm包安装,Helm包的安装命令会在文档中提供,命令包含Prometheus Operator版本信息。更多信息,请参见Helm命令参数说明