通用环境变量列表

提交DLC训练任务时,PAI会自动注入多个通用环境变量,便于您在代码中直接使用。本文为您介绍DLC系统中默认提供的环境变量列表。

公共环境变量

基于灵骏智算的环境变量,关于环境变量的说明,请参见配置高性能网络变量

PyTorch环境变量

PyTorch分布式训练框架中,MasterWorker扮演不同的角色并需要相互建立连接以进行通信。在DLC中,一系列环境变量被用于同步关键信息,例如将Master的地址和端口号传递给Worker。DLCPyTorch训练配置的一些通用环境变量如下:

环境变量名

描述

MASTER_ADDR

Master节点地址。例如:dlc18isgeayd****-master-0,通常为Master节点的Service地址。

MASTER_PORT

Master节点端口。例如:23456。

WORLD_SIZE

分布式作业的节点总数。例如,若提交一个包含1Master1Worker的作业,则WORLD_SIZE设置为2。

RANK

节点的Index。例如,若提交一个包含1Master2Worker的作业,则Master上设置的RANK0,Worker-0设置的RANK1, Worker-1设置的RANK2。

TensorFlow环境变量

TensorFlow分布式作业通过TF_CONFIG环境变量来构建分布式的网络拓扑信息。DLCTensorFlow训练配置的通用环境变量如下:

环境变量名

描述

TF_CONFIG

TensorFlow分布式网络拓扑信息,示例如下:

{
  "cluster": {
    "worker": [
      "dlc1y3madghd****-worker-0.t1612285282502324.svc:2222",
      "dlc1y3madghd****-worker-1.t1612285282502324.svc:2222"
    ]
  },
  "task": {
    "type": "worker",
    "index": 0
  },
  "environment": "cloud"
}