本文为您介绍启动ACCL容器的命令示例。

Docker启动ACCL容器命令示例

使用Docker启动ACCL容器时,推荐使用的选项可参考如下命令:
docker run -it --rm --net=host --ipc=host --gpus=all
    --device=/dev/infiniband --ulimit memlock=-1:-1
    -v /etc/sysconfig/rdma/cluster:/etc/sysconfig/rdma/cluster
    ... ...
    registry.cn-hangzhou.aliyuncs.com/eflops/pytorch:22.02py38
主要选项的解释说明如下:
选项名称 选项说明
--net=host 当前技术条件下,使用RoCE网络配置容器使用宿主机网络栈。
--ipc=host
  • ACCL利用共享内存进行控制信息交互、worker间栅栏同步等。
  • PyTorch多进程处理、多线程Dataloader等会大量使用共享内存通信,故而建议为容器分配足够的共享内存空间。
  • 其他可行选项包括:
    • --shm-size=8g
    • -v /dev/shm:/dev/shm
--device=/dev/infiniband --ulimit memlock=-1:-1 挂载RDMA网卡设备并移除内存页锁定限制,使用RDMA时的必须配置。
-v /etc/sysconfig/rdma/cluster 宿主RDMA服务提供的集群信息文件。