云原生AI的监控组件能够帮助您监控集群的GPU资源使用情况以及集群的各命名空间下的资源配额使用情况。本文介绍如何安装和使用云原生AI的监控组件。

前提条件

安装云原生AI监控组件

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏中,单击集群
  3. 集群列表页面中,单击目标集群名称或者目标集群右侧操作列下的详情
  4. 在左侧导航栏,选择应用 > AI工程加速(公测)
  5. 安装监控组件。
    • 如果您之前已经部署过云原生AI套件:

      云原生AI套件页面,找到云原生AI监控组件ack-alibaba-cloud-metrics-adapter,然后单击右侧操作列下的部署

    • 如果您之前未部署过云原生AI套件:

      云原生AI套件页面,单击一键部署,然后在监控区域,选中监控组件后,单击部署云原生AI套件

使用云原生AI监控组件查看GPU资源及不同命名空间下的资源配额

说明 使用云原生AI监控组件前,您需要安装ack-ai-dashboard组件并且设置AI-Dashboard访问配置。关于如何安装和访问AI-Dashboard,请参见安装云原生AI套件及访问AI Dashbaord
进入云原生AI Dashboard页面后,可以进行以下操作:
  • 登录云原生AI Dashboard后,系统默认呈现集群维度的资源信息。您可以查看集群相关的资源,例如节点个数、运行Job数、GPU使用率等。
  • 在云原生AI Dashboard页面右上角,单击Nodes查看节点GPU资源信息。nodes
  • 在云原生AI Dashboard页面右上角,单击TrainingJobs查看Training Job的监控信息。
  • 在云原生AI Dashboard页面右上角,单击Quota查看集群各命名空间的资源配额使用情况。