近期可观测监控 Prometheus 版的Agent已升级至v4.0.0版本,对应的Helm版本号为v1.1.15。该版本针对上一版本进行了Bug修复、功能优化、性能提升,为了给您提供更优质的服务,建议您根据需要自行选择是否升级至该版本。
v4.0.0版本发布内容
变更类型 | 发布内容 |
---|---|
新增 | 支持修改采集Global Config配置。 |
新增 | Multi-Master机制,可应对超大规模集群服务发现和Targets调度,默认关闭。 |
新增 | 新增收集集群事件指标的采集任务,新增Kubernetes Deployment大盘中展示集群事件。 |
新增 | 支持传递Agent Chart版本到服务端,服务端根据该版本号初始化或升级大盘。 |
新增 | 自监控指标4个。包括Master扩容失败、Master调度Targets耗时、Master下发Targets次数、Master同步worker耗时。 |
新增 | 支持Staleness能力与开源保持对齐,默认关闭。 |
新增 | 支持Starrock产品模式按照Namespace部署多套Agent能力。 |
新增 | ServiceMonitor支持BasicAuth认证方式,Secret需要与ServiceMonitor在同一个命名空间下。 |
新增 | Metrics Metadata能力展示具体指标含义。 |
优化 | 页面获取Targets按照Job进行分片处理,缓解大集群Targets过多导致页面无法展示问题。 |
优化 | Master预抓取策略,节省Master资源开销,提升Master服务发现和Targets调度能力。 |
优化 | 多副本时Master下发Targets策略,节省大约30%的CPU40%的Memory资源开销。 |
优化 | metrics_relabel优化,CPU占用降低70%。 |
优化 | CoreDNS域名解析偶发失败,自动切换缓存IP并沿用,弱依赖CoreDNS实时域名解析,提升数据发送成功率。 |
优化 | 多租场景Informer监听逻辑,多租场景下节省CPU开销。 |
BugFix | SendConfig下发采集配置逻辑,提升下发稳定性。 |
BugFix | RemoteWrite中解析Secret类型问题和传输Header问题。 |
BugFix | 多租场景Pod的Label缓存中更新不及时问题。 |
BugFix | Master对于OOM或者Restart副本偶发Targets下发异常,导致部分采集Targets丢失问题。 |
Helm升级方式
升级可观测监控 Prometheus 版Helm版本的具体操作,请参见升级组件版本。
通常,升级Helm版本不会对您的生产业务造成影响,除非在特殊情况下可能会导致您的监控数据中断,该情况出现的可能性较小。若您在升级过程中遇到任何问题,您可以在钉钉中搜索Prometheus值班号(钉号:aliprometheus),联系产品技术专家进行咨询。