JobSpec

更新时间:
复制为 MD 格式

名称

类型

描述

示例值

object

描述一种类型的 Worker 的详细配置,包括硬件规格,运行镜像,副本数量等。

Type

string

Type 与 Job Type 紧密相关,不同 Job Type 支持不同的 Worker Type。

  • TFJob:支持 Chief, PS, Worker, Evaluator, GraphLearn。

  • PyTorchJob: 支持 Worker, Master。

  • XGBoostJob: 支持 Worker, Master。

  • OneFlowJob:支持 Worker, Master。

  • ElasticBatch:支持 Worker, Master。

PyTorchJob、XGBoostJob、OneFlowJob 和 ElasticBatch 中的 Master 是可选的,若未指定,系统会自动将第一个 Worker 节点作为 Master。

Worker

Image

string

此类 Worker 的运行镜像地址,可以调用 ListImages 获取 PAI 平台提供的镜像。也可以指定第三方公开的镜像。

registry-vpc.cn-hangzhou.aliyuncs.com/cloud-dsw/tensorflow:1.12PAI-gpu-py36-cu101-ubuntu18.04

ImageConfig ImageConfig

私有镜像配置。

PodCount

integer

副本数量。

1

EcsSpec

string

Worker 的硬件规格,请访问PAI-DLC 计费说明获取详细规格列表。

重要 不同规格的价格会有区别。

ecs.c6.large

ExtraPodSpec ExtraPodSpec

额外的 Pod 配置。

ResourceConfig ResourceConfig

资源配置。

UseSpotInstance

boolean

是否使用竞价实例。

false

SpotSpec SpotSpec

抢占式实例配置。

AssignNodeSpec

AssignNodeSpec

指点调度节点配置。

LocalMountSpecs

array

本地挂载配置列表。

LocalMountSpec

本地挂载配置

AutoScalingSpec

AutoScalingSpec

自动伸缩配置

ServiceSpec ServiceSpec

服务配置

IsCheif

boolean

单词拼写错误,已废弃

IsChief

boolean

标记该角色是否是 Chief 角色,Chief 角色只能有一个

RestartPolicy

string

重启策略,支持 Always,Never,OnFailure,ExitCode 四种策略

ExitCode

SystemDisk

SystemDisk

StartupDependencies

array

该角色启动前需要的依赖

StartupDependency