近期可观测监控 Prometheus 版的Agent已升级至v4.0.0版本,对应的Helm版本号为v1.1.15。该版本针对上一版本进行了Bug修复、功能优化、性能提升,为了给您提供更优质的服务,建议您根据需要自行选择是否升级至该版本。

v4.0.0版本发布内容

变更类型发布内容
新增支持修改采集Global Config配置。
新增Multi-Master机制,可应对超大规模集群服务发现和Targets调度,默认关闭。
新增新增收集集群事件指标的采集任务,新增Kubernetes Deployment大盘中展示集群事件。
新增支持传递Agent Chart版本到服务端,服务端根据该版本号初始化或升级大盘。
新增自监控指标4个。包括Master扩容失败、Master调度Targets耗时、Master下发Targets次数、Master同步worker耗时。
新增支持Staleness能力与开源保持对齐,默认关闭。
新增支持Starrock产品模式按照Namespace部署多套Agent能力。
新增ServiceMonitor支持BasicAuth认证方式,Secret需要与ServiceMonitor在同一个命名空间下。
新增Metrics Metadata能力展示具体指标含义。
优化页面获取Targets按照Job进行分片处理,缓解大集群Targets过多导致页面无法展示问题。
优化Master预抓取策略,节省Master资源开销,提升Master服务发现和Targets调度能力。
优化多副本时Master下发Targets策略,节省大约30%的CPU40%的Memory资源开销。
优化metrics_relabel优化,CPU占用降低70%。
优化CoreDNS域名解析偶发失败,自动切换缓存IP并沿用,弱依赖CoreDNS实时域名解析,提升数据发送成功率。
优化多租场景Informer监听逻辑,多租场景下节省CPU开销。
BugFixSendConfig下发采集配置逻辑,提升下发稳定性。
BugFixRemoteWrite中解析Secret类型问题和传输Header问题。
BugFix多租场景Pod的Label缓存中更新不及时问题。
BugFixMaster对于OOM或者Restart副本偶发Targets下发异常,导致部分采集Targets丢失问题。

Helm升级方式

升级可观测监控 Prometheus 版Helm版本的具体操作,请参见升级组件版本

通常,升级Helm版本不会对您的生产业务造成影响,除非在特殊情况下可能会导致您的监控数据中断,该情况出现的可能性较小。若您在升级过程中遇到任何问题,您可以在钉钉中搜索Prometheus值班号(钉号:aliprometheus),联系产品技术专家进行咨询。