阿里云Prometheus监控具有监控数据采集、存储、计算、数据展示、报警等能力。监控指标覆盖广,涵盖容器、Kubernetes、云服务、中间件、数据库、应用以及业务等多种监控数据。本文介绍Prometheus监控支持的主要功能。

监控对象接入

功能 功能说明 控制台示例图
创建Prometheus实例 支持创建5种类型的Prometheus实例。您可以根据需求选择创建任一类型的Prometheus实例。 1
组件监控接入 支持一键接入多种组件应用。自动创建Exporter以及对应的Grafana面板,监测并展示其指标数据。 2
健康巡检

支持云服务巡检、ACK Service巡检以及自定义健康巡检方式。

定期对监控的服务进行连接测试。帮助您掌握服务的健康状况,及时发现异常,从而采取针对性的有效措施。

巡检

监控指标采集

功能 功能说明 控制台示例图
服务发现

默认服务发现:是Prometheus监控内置的服务发现功能,在接入Prometheus监控时自动开启。

当前默认服务发现指标采集对象为Kubernetes集群下所有Namespace包含的Pod。

服务发现
ServiceMonitor:支持手动添加ServiceMonitor配置Prometheus监控的采集规则进行指标采集。
PodMonitor:支持手动添加PodMonitor配置Prometheus监控的采集规则进行指标采集。
编辑Prometheus.yaml 支持通过编辑Prometheus.yaml的方式为应用配置Prometheus监控的采集规则。 yaml
查看指标

支持查看基础指标和自定义指标。

对于不再需要监控的指标,支持配置废弃指标。

指标
Targets 支持通过Targets可以直观查看正在被抓取的目标,以及抓取状态是否正常。同时支持查看目标中暴露的metrics。 tr

监控数据处理

功能 功能说明 控制台示例图
获取Remote Write地址

Remote Write功能支持作为远程数据库存储Prometheus监控数据。

您可以使用Remote Read地址和Remote Write地址,将自建Prometheus的监控数据存储到阿里云Prometheus实例中,实现远程存储。

地址
获取Remote Read地址
编辑RecordingRule.yaml 预聚合(Recording Rule)可以对落地的指标数据做二次开发。可以配置预聚合规则将计算过程提前到写入端,减少查询端资源占用,尤其在大规模集群和复杂业务场景下可以有效的降低PromQL的复杂度,从而提高查询性能,解决用户配置以及查询慢的问题。 def
聚合实例 提供在当前地域下所有Prometheus实例的一个虚拟聚合实例。针对这个虚拟聚合实例可以实现统一的指标查询和告警。 聚合实例

监控数据展示

功能 功能说明 控制台示例图
查看Grafana大盘 预置丰富的Grafana大盘,同时支持自定义大盘来展示监控数据。 大盘
获取HTTP API地址 提供了HTTP API地址,您可以通过该地址将阿里云Prometheus实例的监控数据接入自建的Grafana大盘展示数据,也可以获取阿里云Prometheus监控数据进行二次开发。 api

报警

功能 功能说明 控制台示例图
创建报警

预置多种报警规则,支持针对特定监控对象自定义报警规则。

当规则被触发时,系统会以您指定的报警方式向报警联系人分组发送报警信息,以提醒报警联系人采取必要的问题解决措施。

报警
管理报警 支持对报警规则执行开启、关闭、编辑、删除等操作。 管理
智能检测算子 支持通过智能检测算子算法自动地发现KPI时间序列数据中的异常波动,实现时间序列的异常检测,为后续的告警、自动止损、根因分析等提供决策依据。 异常波动

Prometheus实例管理

功能 功能说明 控制台示例图
调整存储时长 支持手动设置指标的存储天数。 gk
设置Agent副本数 支持Agent副本数水平伸缩(HPA)自动扩容的能力,均衡分解采集任务,实现动态扩缩,解决开源版本无法水平扩展与高可用问题。 副本
探针管理 支持查看Prometheus探针的基本信息和健康检查结果、设置Agent副本数、重启探针。 探针
说明
  • 不同类型的Prometheus实例支持的功能可能会有所差异。
  • Prometheus监控仅支持Helm包安装,Helm包的安装命令会在文档中提供,命令包含Prometheus Operator版本信息。更多信息,请参见Helm命令参数说明