文档

通用环境变量列表

更新时间:

提交DLC训练任务时,PAI会自动注入多个通用环境变量,便于您在代码中直接使用。本文为您介绍DLC系统中默认提供的环境变量列表。

公共环境变量

基于灵骏智算的环境变量,关于环境变量的说明,请参见配置高性能网络变量

PyTorch环境变量

在PyTorch分布式训练框架中,Master和Worker扮演不同的角色并需要相互建立连接以进行通信。在DLC中,一系列环境变量被用于同步关键信息,例如将Master的地址和端口号传递给Worker。DLC为PyTorch训练配置的一些通用环境变量如下:

环境变量名

描述

MASTER_ADDR

Master节点地址。例如:dlc18isgeayd****-master-0,通常为Master节点的Service地址。

MASTER_PORT

Master节点端口。例如:23456。

WORLD_SIZE

分布式作业的节点总数。例如,若提交一个包含1个Master和1个Worker的作业,则WORLD_SIZE设置为2。

RANK

节点的Index。例如,若提交一个包含1个Master和2个Worker的作业,则Master上设置的RANK为0,Worker-0设置的RANK为1, Worker-1设置的RANK为2。

TensorFlow环境变量

TensorFlow分布式作业通过TF_CONFIG环境变量来构建分布式的网络拓扑信息。DLC为TensorFlow训练配置的通用环境变量如下:

环境变量名

描述

TF_CONFIG

TensorFlow分布式网络拓扑信息,示例如下:

{
  "cluster": {
    "worker": [
      "dlc1y3madghd****-worker-0.t1612285282502324.svc:2222",
      "dlc1y3madghd****-worker-1.t1612285282502324.svc:2222"
    ]
  },
  "task": {
    "type": "worker",
    "index": 0
  },
  "environment": "cloud"
}
  • 本页导读 (1)