Prometheus 探针版本发布说明

本文介绍Prometheus 探针版本发布说明。

2024

Prometheus 探针

Prometheus 探针版本号

发布时间

采集指标内容

变更内容

v1.1.22

202409

容器环境

  • 新增部分Node ExporterKSM基础指标支持。

  • 移除arms-prom空间下arms-prom-admin服务9335端口的/aliyun页面,满足安全合规需求。

v1.1.20

202405

容器环境

  • 【采集】修复内置采集作业无法自定义覆盖的问题。

  • 【采集】增加最大副本数的自监控指标 aliyun_prometheus_agent_hpa_max_limit。

  • 【采集】改进VPC托管场景运行支持。

  • 【采集】支持通过功能开关启用HTTPS上报指标。

  • 【采集】支持ASM mTLS环境自适应采集指标。

  • 【采集】修复指标预览URL,包含异常字符失败的问题。

  • 【采集】修复采集配置加载本地不存在的CA证书导致程序不工作的问题。

  • 【采集】增加对政务云、金融云、沙特等地域的自监控指标推送。

  • 【采集】内置采集作业Node Exporter指标增加节点名称标签。

  • 【采集】禁用Prometheus存储实例注册能力。

  • 【采集】分桶指标收敛支持在多副本模式下工作。

  • 【管控】独立组件提供Prometheus实例注册能力,默认关闭采集组件的注册机制。

  • 【管控】提供可观测接入中心组件安装、卸载能力。

  • 【管控】支持启用容器监控Pro版。

  • 【Kube-State-Metrics】升级AutoScaling APIv2。

  • 【Kube-State-Metrics】升级CronJobPodDisruptionBudget API版本到v1。

  • 【Kube-State-Metrics】安全策略调整。

云服务

  • 提供更及时的数据处理能力,大规模数据采集场景,指标时延增量降低到秒级。

  • 新接入云产品时的指标采集生效时间从分钟级降低到秒级。

  • 新增自定义选择云服务产品Tag注入到指标的能力。

  • 由于架构调整,原Prometheus Agent相关自监控指标不再投递到用户实例(该部分指标不收费)。如果您在告警中依赖了非云产品的自监控指标(例如aliyun_arms 开头的指标),请先移除对此类指标的依赖后升级。

  • 部分老版本实例的指标中存在arms_instance_idarms_instance_name,在该版本中已废弃。

  • 由于架构调整,不再提供Targets列表查询。

v1.1.19

202403

容器环境

  • 改进大规模集群首次接入的指标采集延迟。

  • 服务发现模式优化,降低不通采集作业配置变更的影响。

  • 丰富自监控指标,可识别采集异常引起的数据不齐全问题。

  • 支持更灵活的指标白名单裁剪配置。

  • 修复一批边界情况下采集异常的问题。

2023

展开折叠面板查看2023年组件变更记录

Helm版本号

Agent镜像版本号

变更内容

发布时间

变更影响

v1.1.18

registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0

  • 调整了Node Exporter, GPU Exporter等资源的 Request 和 Limit。

  • Node Exporter端口号支持配置,默认值保持 9100 不变。

202312

此次升级不会对业务造成影响。

v1.1.17

registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0

  • 新增集群事件采集任务,支持Kubernetes Deployment大盘。

  • 新增根据SLA进行自监控指标埋点,SLA稳定性大盘数据。

  • 新增ServiceMonitor支持BasicAuth认证方式,Secret需要与ServiceMonitor在同一个命名空间下使用。

  • 新增Metrics Metadata能力展示具体指标含义。

  • 新增支持传递Agent Chart版本到服务端,服务端根据该版本号进行大盘的初始化或升级。

  • 新增RemoteWrite自监控指标,统计每批次发送数据的耗时。

  • 新增基础指标采集报错和采集延迟的自监控指标。

  • 新增业务指标采集报错和延迟自监控指标。

  • 优化RemoteWrite默认参数queue_config设置为min_shards=10,max_samples_per_send=5000,capacity=10000,提升大规模集群适应能力。

  • 优化CSI采集Job服务发现方式,主要为PV采集相关。

  • 优化senderLoop下发频率,修改syncWorkersSeries频率,减少不必要的扰动。

  • 优化精简部分日志,优化部分日志增加抓取链路耗时更细节展示。

  • 优化基础指标采集Job单独固定采集周期和采集超时设置,不再使用Global配置,减少对基础指标采集受到的不必要干扰。

  • 优化Master-Slave多副本模式下互相影响的逻辑,MasterWorker,WorkerWorker之间不再互相影响,提升稳定性。

  • 优化Master下发Targets策略,节省大约30%的CPU40%的内存资源开销,提升采集性能。

  • 优化metrics_relabel,CPU占用降低70%。

  • 优化多租户场景Informer监听逻辑,多租户场景下节省CPU开销约20%。

  • 优化CoreDNS域名解析偶发失败,自动切换缓存IP并沿用,弱依赖CoreDNS实时域名解析,提升数据发送稳定性。

  • 优化SendConfig下发采集配置逻辑,提升下发稳定性。

  • 优化Master预抓取策略,节省Master资源开销,提升Master服务发现和Targets调度能力。

  • 优化单批次大包大于1 MB自适应,减少因后端限制导致的数据包丢失情况。

  • 修复ScrapeLoop个别采集Target无法停止导致采集重复的问题。

  • 修复多租户场景PodLabel缓存中更新不及时,造成一个时间线变为两条的问题。

  • 修复Master对于OOM或者Restart副本偶发Targets下发异常,导致部分采集Targets丢失问题。

  • 修复RemoteWrite中解析Secret类型问题和传输Header问题。

  • 修复Kubernetes-pods关闭操作偶发不生效问题。

  • 修复Global默认参数和external_labels不生效问题,同时支持自定义修改。

202308

此次升级不会对业务造成影响。

v1.1.15

registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0

适配容器服务 ACK v1.26集群版本。

202305

此次升级不会对业务造成影响。

v1.1.14

registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0

  • 优化Memory30%和CPU50%的资源消耗,提升采集能力。

  • 进一步降低对CoreDNS域名解析的依赖,提升数据发送稳定性。

  • ServiceMonitor支持BasicAuth认证。

  • 修复RemoteWrite解析Secret类型的问题。

  • 增加3项自监控埋点。

  • Metrics Metadata展示指标含义。

  • 新增收集集群事件指标的采集任务。

  • Multi-Master机制,可应对超大规模集群服务发现和Targets调度,默认关闭。

  • BugFix 3+项。

此次升级不会对业务造成影响。

v1.1.13

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0

  • registry.{REGION}.aliyuncs.com/acs/gpu-prometheus-exporter:v2.3.6-994eaf7-aliyun

  • 升级GPU-Exporter v2.3.6-994eaf7-aliyun。

  • 支持ACK One注册集群。

202304

此次升级不会对业务造成影响。

v1.1.12

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v3.2.1

  • registry.{REGION}.aliyuncs.com/acs/gpu-prometheus-exporter:v2.3.6-fdb40f2-aliyun

  • 升级GPU-Exporter v2.3.6-fdb40f2-aliyun。

  • 优化组件镜像拉取速度。

202302

此次升级不会对业务造成影响。

2022

展开折叠面板查看2022年组件变更记录

版本号

镜像地址

变更内容

发布时间

变更影响

v1.1.11

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v3.2.1

  • 增加服务降级功能,在Remote Write失败时优先保证主链路采集稳定。

  • 支持采集JobGlobal Config的修改。

  • Remote Write增强,当CoreDNS发生解析域名失败时,自动切换为提前缓存的IP方式发送。

  • Remote Write支持配置多个发送地址。

202212

此次升级不会对业务造成影响。

v1.1.9

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v3.2.0

  • Agent支持多种CPU架构,包括amd64、arm、arm64、ppc64le、s390x。

  • Agent自监控能力增强。

  • Agent内存垃圾回收策略优化。

  • 优化多副本Target调度策略,避免Worker内存泄漏。

  • Agent内存降级问题已修复。

  • 修复多副本状态下的边界条件死锁问题。

  • 新增4种服务发现的能力,包括IonOS、PuppetDB、Uyuni、Vultr。

202209

此次升级不会对业务造成影响。

v1.1.7

  • arms-prom-operator:v3.1.0

  • gpu-prometheus-exporter:v2.3.6-2.0.0-0c0440f

支持新版GPU-Exporter指标与大盘。更多信息,请参见开启集群GPU监控

202207

此次升级不会对业务造成影响。

v1.1.6

  • arms-prom-operator:v3.1.0

  • gpu-prometheus-exporter:v1.0.1-26c5321

修复GPU-Exporter v1.x版本数据采集问题。

202206

此次升级不会对业务造成影响。

v1.1.5

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v3.1.0

  • 支持集成中心。

  • 支持超大规模集群(>1万节点)。

  • 支持设置非可观测监控Prometheus 版控制台创建的ServiceMonitorPodMonitor同步。

  • 支持配置非可观测监控Prometheus版控制台创建的ServiceMonitorPodMonitor声明式服务发现。

  • 支持Agent HPA副本数上限可参数化配置。

  • 支持编辑Prometheus基础指标Job部分字段。

  • 支持在线校验ServiceMonitor、PodMonitorPrometheus.yaml相关配置文件。

  • 优化CPU、内存资源使用与系统稳定性。

202205

此次升级不会对业务造成影响。

v1.1.4

  • node-exporter安全加固。

  • gpu-exporter修复挂载卷问题。

202204

此次升级不会对业务造成影响。

v1.1.3

兼容1.22版本集群。

202202

此次升级不会对业务造成影响。

v1.1.2

升级kube-state-metrics v2.3.0-755434c-aliyun版本。

202201

此次升级不会对业务造成影响。

2021

展开折叠面板查看2021年组件变更记录

版本号

镜像地址

变更内容

发布时间

变更影响

v1.1.11

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v3.2.1

  • 增加服务降级功能,在Remote Write失败时优先保证主链路采集稳定。

  • 支持采集JobGlobal Config的修改。

  • Remote Write增强,当CoreDNS发生解析域名失败时,自动切换为提前缓存的IP方式发送。

  • Remote Write支持配置多个发送地址。

202212

此次升级不会对业务造成影响。

v1.1.9

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v3.2.0

  • Agent支持多种CPU架构,包括amd64、arm、arm64、ppc64le、s390x。

  • Agent自监控能力增强。

  • Agent内存垃圾回收策略优化。

  • 优化多副本Target调度策略,避免Worker内存泄漏。

  • Agent内存降级问题修复。

  • 修复多副本状态下的边界条件死锁问题。

  • 新增4种服务发现的能力,包括IonOS、PuppetDB、Uyuni、Vultr。

202209

此次升级不会对业务造成影响。

v1.1.7

  • arms-prom-operator:v3.1.0

  • gpu-prometheus-exporter:v2.3.6-2.0.0-0c0440f

支持新版GPU-Exporter指标与大盘。更多信息,请参见开启集群GPU监控

202207

此次升级不会对业务造成影响。

v1.1.6

  • arms-prom-operator:v3.1.0

  • gpu-prometheus-exporter:v1.0.1-26c5321

修复GPU-Exporter v1x版本数据采集问题。

202206

此次升级不会对业务造成影响。

v1.1.5

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v3.1.0

  • 支持集成中心。

  • 支持超大规模集群(>1万节点)。

  • 支持设置非可观测监控 Prometheus 版控制台创建的ServiceMonitorPodMonitor同步。

  • 支持配置非可观测监控 Prometheus版控制台创建的ServiceMonitorPodMonitor声明式服务发现。

  • 支持Agent HPA副本数上限可参数化配置。

  • 支持编辑Prometheus基础指标Job部分字段。

  • 支持在线校验ServiceMonitor、PodMonitorPrometheus.yaml相关配置文件。

  • 优化CPU、内存资源使用与系统稳定性。

202205

此次升级不会对业务造成影响。

v1.1.4

  • node-exporter安全加固。

  • gpu-exporter修复挂载卷问题。

202204

此次升级不会对业务造成影响。

v1.1.3

兼容1.22版本集群。

202202

此次升级不会对业务造成影响。

1.1.2

升级kube-state-metrics v2.3.0-755434c-aliyun版本。

202201

此次升级不会对业务造成影响。

2020

展开折叠面板查看2020年组件变更记录

Helm版本号

Agent镜像版本号

功能概述

发布时间

变更影响

v0.1.5

arms-prom-operator:v0.1

  • 支持阿里云容器服务Kubernetesv1.18集群。

  • 支持镜像Region从内网地址拉取。

202010

此次升级不会对业务造成影响。

v0.1.4

arms-prom-operator:v0.1

  • 开箱即用的K8s容器监控,包括Pod监控、Node监控和Resource监控等,主要用于监控应用所在的K8s容器运行时。

  • 白屏化的组件监控,包括MySQL、Redis、Kafka、ZooKeeperNginx等常见的9种组件监控,主要用于监控应用依赖中间件的场景。

  • 全托管的可观测监控 Prometheus 版系统,包括Prometheus.yaml采集规则、Grafana大盘和告警系统,可以满足自建Prometheus迁移阿里云的需求场景。

  • Bug修复:修复鉴权访问Bug。

202007

此次升级不会对业务造成影响。

v0.1.3

arms-prom-operator:v0.1

增加Agent资源使用限制。

202004

此次升级不会对业务造成影响。

2019

展开折叠面板查看2019年组件变更记录

Helm版本号

Agent镜像版本号

功能概述

发布时间

变更影响

v0.1.2

arms-prom-operator:v0.1

初始发布版本。

201908

此次升级不会对业务造成影响。