云原生AI的监控组件能够帮助您监控集群的GPU资源使用情况以及集群的各命名空间下的资源配额使用情况。本文介绍如何安装和使用云原生AI的监控组件。
前提条件
- ACK的Kubernetes集群版本大于等于1.18.8。
- Arena组件版本大于等于0.7.0。具体操作,请参见通过组件安装最新版的Arena。
- 安装ARMS Prometheus监控组件,具体操作,请参见arms-prometheus。
- 安装AI-Dashboard组件。具体操作,请参见安装云原生AI套件及访问AI Dashbaord。
安装云原生AI监控组件
- 登录容器服务管理控制台。
- 在控制台左侧导航栏中,单击集群。
- 在集群列表页面中,单击目标集群名称或者目标集群右侧操作列下的详情。
- 在左侧导航栏,选择 。
- 安装监控组件。
- 如果您之前已经部署过云原生AI套件:
在云原生AI套件页面,找到云原生AI监控组件ack-alibaba-cloud-metrics-adapter,然后单击右侧操作列下的部署。
- 如果您之前未部署过云原生AI套件:
在云原生AI套件页面,单击一键部署,然后在监控区域,选中监控组件后,单击部署云原生AI套件。
- 如果您之前已经部署过云原生AI套件:
使用云原生AI监控组件查看GPU资源及不同命名空间下的资源配额
说明 使用云原生AI监控组件前,您需要安装ack-ai-dashboard组件并且设置AI-Dashboard访问配置。关于如何安装和访问AI-Dashboard,请参见安装云原生AI套件及访问AI Dashbaord。
进入云原生AI Dashboard页面后,可以进行以下操作:
- 登录云原生AI Dashboard后,系统默认呈现集群维度的资源信息。您可以查看集群相关的资源,例如节点个数、运行Job数、GPU使用率等。
- 在云原生AI Dashboard页面右上角,单击Nodes查看节点GPU资源信息。
- 在云原生AI Dashboard页面右上角,单击TrainingJobs查看Training Job的监控信息。
- 在云原生AI Dashboard页面右上角,单击Quota查看集群各命名空间的资源配额使用情况。
在文档使用中是否遇到以下问题
更多建议
匿名提交