如何在工作流集群中使用Prometheus监控服务

工作流集群集成阿里云ARMS Prometheus服务,提供完善的可观测能力。您可以查看工作流运行状况和集群的健康状况。本文介绍如何在工作流集群中开启和使用Prometheus监控服务。

前提条件

计费说明

工作流集群监控会引起额外的费用,建议在启用此功能前,仔细阅读计费说明

开启Prometheus监控服务

通过控制台开启

  1. 登录ACK One控制台,在左侧导航栏选择工作流集群 > 集群监控

  2. 集群监控页面,单击开启工作流集群监控,然后单击确定,开启工作流集群监控。

通过命令开启

  1. 执行以下命令,获取工作流集群的ClusterID。

    aliyun adcp DescribeHubClusters --Profile=XFlow
  2. 执行以下命令,开启Prometheus监控服务。

    aliyun adcp UpdateHubClusterFeature --MonitorEnabled true --ClusterId <cluster id>

    Prometheus监控服务开启后,将为该工作流实例自动创建一个ARMS Prometheus实例。

查看Prometheus监控大盘

  1. 登录ACK One控制台,在左侧导航栏选工作流集群 > 集群监控

  2. 工作流监控页签,单击Argo workflow监控大盘,查看工作流运行状况。

    123.png

关闭Prometheus监控服务

通过控制台关闭

  1. 登录ACK One控制台,在左侧导航栏选择工作流集群 > 集群监控

  2. 集群监控页面,单击右侧关闭功能,然后单击确定,关闭工作流集群监控。

通过命令关闭

  1. 执行以下命令,关闭Prometheus监控服务。

aliyun adcp UpdateHubClusterFeature --MonitorEnabled false --ClusterId <cluster id>