DSW提供了多实例互联的功能,帮助您在DSW中实现多机多卡的分布式开发和训练。
前提条件
基于通用计算资源组或灵骏智算资源组的多个实例,且位于相同VPC中;
实例所属资源组的公网访问网关配置为专有网关;
实例位于相同的集群(如:灵骏实例和通用计算资源实例无法互通);
仅部分机器规格支持RDMA/eRDMA能力,详情请参见默认变量(平台预置),使用限制;
DSW与DLC在RDMA/eRDMA上功能一致,因此您可以参考DLC相关文档。
支持功能
预置适配不同资源和网络架构的高性能网络环境变量。
灵骏智算资源新建DSW实例预置环境变量默认变量(平台预置);
通用计算资源新建DSW实例预置环境变量平台预置环境变量;
在支持RDMA的规格节点上,支持通过RDMA/eRDMA进行互连。
通过DNS域名产品化实例互访方式,实例间可以通过实例ID进行互连。
基于以上能力,您可以在DSW中实现多机多卡任务的开发和调试。
操作步骤
该文章对您有帮助吗?