ACK One注册集群支持对各种异构计算资源进行统一调度和运维管理,能够显著提高异构计算集群资源的使用效率。
节点池架构
ACK One注册集群通过节点池来高效管理集群节点。节点池是一组具有相同配置的节点集合,支持在单个集群中创建多个不同类型的节点池。
功能分类
节点池功能概述
功能项 | 说明 | 相关文档 |
创建、编辑、删除与查看 |
| |
手动或自动扩缩容 |
| |
移除节点 | 如果不再需要某些节点,可将节点从集群或节点池中移除。请按标准化操作移除,避免出现预期外行为。 | |
创建节点池自定义脚本 |
|
GPU节点池
功能项 | 说明 | 相关文档 |
为集群添加GPU节点 | 容器服务 Kubernetes 版ACK支持对各种型号的计算型GPU资源进行统一调度和运维管理,能够显著提高GPU集群资源的使用效率。 | |
NVIDIA驱动版本列表 | ACK支持的NVIDIA驱动版本列表。 | |
通过指定版本号自定义节点GPU驱动版本 | 不同类型和版本的ACK One注册集群默认安装不同版本的NVIDIA驱动。 如果CUDA库需要与更高版本的NVIDIA驱动兼容,可以自定义安装GPU节点的NVIDIA驱动。 |
GPU监控
功能项 | 说明 | 相关文档 |
开启GPU监控 | GPU监控基于NVIDIA DCGM构建功能强大的GPU监控体系。
| |
监控面板说明 | 介绍监控大盘中各个监控面板(Panel)的含义。 | |
监控指标说明 | GPU监控2.0基于Exporter+Prometheus+Grafana体系打造更为丰富的GPU可观性场景,支持基于容器服务开发的GPU Exporter监控指标构建Grafana大盘。 |
GPU故障诊断与恢复
功能项 | 说明 | 相关文档 |
GPU故障检测与自动隔离 | 介绍如何正确安装、配置和使用ACK GPU故障检测组件,以便管理和维护ACK环境中的GPU资源。 |