典型场景:使用自定义镜像

更新时间: 2023-09-19 09:55:03

使用灵骏智算资源提交训练任务时,您可以使用阿里云PAI-DLC为您提供的官方内置镜像,也可以自行构建并使用自定义镜像,本文为您介绍使用自定义镜像的注意事项。

环境要求

  • CUDA >= 11.2

  • NCCL >= 2.12.10

  • Python3

安装RDMA库

灵骏智算资源为您提供高性能的RDMA网络,当您用自定义镜像时,需在自定义镜像的Dockerfile中手动安装灵骏智算资源的Serverless的RDMA库,才能更好的使用灵骏智算资源的RDMA网络能力。

安装RDMA库的示例代码如下。

RUN apt-get update && \
    apt-get install -y --allow-downgrades --allow-change-held-packages --no-install-recommends libnl-3-dev libnl-route-3-dev libnl-3-200 libnl-route-3-200 iproute2 udev dmidecode ethtool && \
    apt-get clean && \
    rm -rf /var/lib/apt/lists/*

RUN cd /tmp/ && \
    wget http://pythonrun.oss-cn-zhangjiakou.aliyuncs.com/rdma/nic-libs-mellanox-rdma-5.2-2/nic-lib-rdma-core-installer-ubuntu.tar.gz && \
    tar xzvf nic-lib-rdma-core-installer-ubuntu.tar.gz && \
    cd nic-lib-rdma-core-installer-ubuntu && \
    echo Y | /bin/bash install.sh && \
    cd .. && \
    rm -rf nic-lib-rdma-core-installer-ubuntu && \
    rm -f nic-lib-rdma-core-installer-ubuntu.tar.gz
阿里云首页 机器学习平台 PAI 相关技术圈