接入云上GPU算力

ACK One注册集群支持对各种异构计算资源进行统一调度和运维管理,能够显著提高异构计算集群资源的使用效率。

节点池架构

ACK One注册集群通过节点池来高效管理集群节点。节点池是一组具有相同配置的节点集合,支持在单个集群中创建多个不同类型的节点池。

image

功能分类

节点池功能概述

功能项

说明

相关文档

创建、编辑、删除与查看

  • 支持通过控制台创建节点池,配置节点池的基础信息、网络配置、实例规格配置、存储配置、期望节点数等。

  • 支持编辑调整已有节点池的部分配置。

  • 节点无需使用时,可删除节点池。节点池是否开启期望节点数以及节点的计费模式会影响节点释放的行为。

  • 支持查看节点池详情,包括基本配置信息、资源监控大盘、节点列表、伸缩活动等。

创建与管理节点池

手动或自动扩缩容

  • 支持通过手动调整节点池的期望节点数,实现节点池的扩缩容,将节点数目维持在期望数量,节省资源成本。

  • 支持配置节点自动伸缩方案,当集群的容量规划无法满足应用Pod调度时,自动扩缩节点资源。

移除节点

如果不再需要某些节点,可将节点从集群或节点池中移除。请按标准化操作移除,避免出现预期外行为。

移除节点池内节点

创建节点池自定义脚本

  • 自定义脚本用户确保注册集群的节点池能够正确同步节点状态,并满足云上调度需求。

  • 自定义脚本必须接收阿里云注册集群下发的系统环境变量。

创建节点池自定义脚本

GPU节点池

功能项

说明

相关文档

为集群添加GPU节点

容器服务 Kubernetes 版ACK支持对各种型号的计算型GPU资源进行统一调度和运维管理,能够显著提高GPU集群资源的使用效率。

为集群添加GPU节点

NVIDIA驱动版本列表

ACK支持的NVIDIA驱动版本列表。

ACK支持的NVIDIA驱动版本列表

通过指定版本号自定义节点GPU驱动版本

不同类型和版本的ACK One注册集群默认安装不同版本的NVIDIA驱动。

如果CUDA库需要与更高版本的NVIDIA驱动兼容,可以自定义安装GPU节点的NVIDIA驱动。

通过指定版本号自定义节点GPU驱动版本

GPU监控

功能项

说明

相关文档

开启GPU监控

GPU监控基于NVIDIA DCGM构建功能强大的GPU监控体系。

开启集群GPU监控

监控面板说明

介绍监控大盘中各个监控面板(Panel)的含义。

监控面板说明

监控指标说明

GPU监控2.0基于Exporter+Prometheus+Grafana体系打造更为丰富的GPU可观性场景,支持基于容器服务开发的GPU Exporter监控指标构建Grafana大盘。

监控指标说明

GPU故障诊断与恢复

功能项

说明

相关文档

GPU故障检测与自动隔离

介绍如何正确安装、配置和使用ACK GPU故障检测组件,以便管理和维护ACK环境中的GPU资源。

GPU故障检测与自动隔离