在ACK中添加eRDMA机型的节点

本文介绍如何将eRDMA机型的节点加入ACK中。

使用限制

  • 1.24及以上版本的ACK集群支持eRDMA实例节点的添加,且如果节点为GPU节点时,仅支持470.xx.xx以上的NVIDIA驱动版本。

  • ACK支持全部eRDMA机型节点加入集群。支持eRDMAECS实例类型,请参见:

前提条件

  • 已在节点上安装eRDMA

    • 通过OS镜像预安装

      在集群中添加支持eRDMA的节点时,可以使用阿里云官方提供的已经部署好eRDMA驱动的云市场OS镜像 Alibaba Cloud Linux 3 64位 (预装eRDMA软件栈)。该镜像需要您前往云市场购买(不计费)。

    • 手动安装

      如果您希望手动在实例上安装eRDMA软件栈,请参见GPU实例上启用eRDMA在企业级实例上启用eRDMA。安装完成后需手动添加节点至ACK集群。

  • 创建eRDMA网卡,并与目标ECS实例绑定。

添加支持eRDMA的节点ACK集群

手动添加

  1. 将节点的OS镜像设置为前提条件中获取到的OS镜像。

  2. 手动添加节点

自动添加

  1. 新建节点池,OS镜像为前提条件中获取到的OS镜像。

  2. 自动添加节点

相关操作

节点安装eRDMA依赖

参见使用eRDMA加速容器网络,在节点上安装并配置ACK eRDMA Controller组件。

容器安装eRDMA依赖

如需在容器(Docker)中启用eRDMA功能,需要安装eRDMA的用户态驱动程序包。

说明

建议您将容器内安装eRDMA依赖的操作集成并写入您所使用eRDMA业务镜像的Dockerfile中,可以在多个环境下确保一致性和可重复性,简化部署流程,提升开发和运维效率。Dockerfile具体制作过程,请参见Dockerfile编写教程