通用数据结构

CodeSourceItem

一个CodeSource的描述,用于ListCodeSources

参数名称

类型

示例值

描述

CodeSourceId

String

code-20210111103721-********

代码源ID

DisplayName

String

MyCodeSourceName1

代码源名称

Description

String

code source of dlc examples

代码源详细文字描述

CodeRepo

String

https://code.aliyun.com/pai-dlc/examples.git

代码仓库地址

CodeBranch

String

master

代码仓库分支;在CreateJob时可以被覆盖。

CodeCommit

String

44da109b59f8596152987eaa8f3b2487bb72ea63

代码CommitID,调用CreateJob时可以覆盖。

CodeRepoUserName

String

user

代码仓库访问的用户名,用于访问私有仓库。

CodeRepoAccessToken

String

xxxx

访问代码仓库的AccessToken。

UserId

String

115729017166****

代码源创建者的阿里云用户UID。

GmtCreateTime

String

2021-01-18T12:52:15Z

创建时间(UTC)

GmtModifyTime

String

2021-01-18T12:52:15Z

修改时间(UTC)

ContainerSpec

Definition of ContainerSpec

参数名称

类型

示例值

描述

Name

String

data-init

容器名称

Image

String

registry.cn-hangzhou.aliyuncs.com/pai-dlc/curl:v1.0.0

容器镜像地址

Command

Array of String

curl www.aliyun.com

命令行

Args

Array of String

参数

WorkingDir

String

/root

容器内工作目录

Env

Array of EnvVar

环境变量

Resources

ResourceRequirements

容器资源

DataSourceItem

数据源详情

参数名称

类型

示例值

描述

DataSourceType

String

nas

数据源类型,仅支持nas;其他类型正在添加中,敬请期待。

DataSourceId

String

data-20210114104214-xxxxxxx

数据源ID

DisplayName

String

nas-data

数据源名称

Description

String

data source of dlc examples

数据源详细描述

FileSystemId

String

1ca404****

阿里云NAS文件系统ID,请参考阿里云文档

Path

String

oss://mybucket/path/to/dir

阿里云OSS文件系统路径

Endpoint

String

oss-cn-beijing-internal.aliyuncs.com

阿里云OSS文件系统服务端点

Options

String

{"key": "value"}

阿里云OSS文件系统配置选项

MountPath

String

/root/data/

挂载到任务运行时的容器的本地路径

UserId

String

123456789

数据源创建者的阿里云用户ID

GmtCreateTime

String

2021-01-12T14:35:00Z

创建时间(UTC)

GmtModifyTime

String

2021-01-12T14:36:00Z

最后修改时间(UTC)

EcsSpec

ECS规格

参数名称

类型

示例值

描述

InstanceType

String

ecs.gn6e-c12g1.3xlarge

规格类型

AcceleratorType

String

GPU

加速器类型

Cpu

Integer

12

cpu数量

Gpu

Integer

1

gpu数量

GpuType

String

NVIDIA v100

gpu类型

Memory

Integer

92

Memory数量

IsAvailable

Boolean

true

是否有库存

EnvVar

Definition of Environment variable

参数名称

类型

示例值

描述

Name

String

ENABLE_DEBUG

环境变量名称

Value

String

true

环境变量值

ExtraPodSpec

Definition of ExtraPodSpec

参数名称

类型

示例值

描述

SideCarContainers

Array of ContainerSpec

伴随容器

InitContainers

Array of ContainerSpec

初始化容器

PodLabels

Map

Pod标签

PodAnnotations

Map

Pod注解

SharedVolumeMountPaths

Array of String

/root/share/

共享的本地目录

ImageItem

Docker Image详情

参数名称

类型

示例值

描述

ImageTag

String

tensorflow-training:2.3-cpu-py36-ubuntu18.04

Docker镜像的Tag

ImageUrl

String

registry.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:2.3-cpu-py36-ubuntu18.04

镜像URL地址

ImageUrlVpc

String

registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:2.3-cpu-py36-ubuntu18.04

镜像URL的阿里云VPC地址,访问速度更快。

ImageProviderType

String

Community

镜像类型,枚举值:

  • Community: 社区
  • PAI: PAI平台优化

AcceleratorType

String

gpu

镜像加速器类型,枚举型:

  • cpu
  • gpu

Framework

String

PyTorchJob

镜像封装的计算框架,枚举型:

  • TFJob
  • PyTorchJob

AuthorId

String

ken

镜像作者

JobItem

作业详情信息

参数名称

类型

示例值

描述

JobId

String

dlc-20210126170216-********

作业ID

JobType

String

TFJob

作业类型

DisplayName

String

tf-mnist-test

作业名称

UserId

String

123456789

作业所属用户的UID

Status

String

Stopped

作业状态

WorkspaceId

String

268

作业所属工作空间ID

WorkspaceName

String

dlc-workspace

作业所属工作空间名称

ResourceId

String

dlc-quota

作业运行所在的资源组ID

ResourceLevel

String

L0

作业运行时的资源级别

ReasonCode

String

JobStoppedByUser

作业进入当前状态的缘由Code

ReasonMessage

String

Job is stopped by user.

作业进入当前状态的缘由详细描述

JobSpecs

Array of JobSpec

作业运行时的节点配置

UserCommand

String

python /root/code/mnist.py

作业每个节点运行的启动命令

DataSources

Array of DataSources

本作业使用的所有数据源配置列表

DataSourceId

String

data-20210114104214-********

数据源配置ID

MountPath

String

/mnt/data

本地挂载路径

CodeSource

Object

次作业使用的代码源配置

CodeSourceId

String

code-20210111103721-********

代码源配置ID

Branch

String

master

代码仓库分支

Commit

String

44da109b59f8596152987eaa8f3b2487bb******

此次作业使用的代码仓库的CommitID

MountPath

String

/mnt/data

本地挂载路径

ThirdpartyLibs

Array of String

numpy==1.16.1

一个Python三方库

ThirdpartyLibDir

String

/root/code/

三方库文件Requirements.txt所在目录。

Envs

Map

作业运行时被注入的环境变量

GmtCreateTime

String

2021-01-12T14:35:01Z

作业创建时间, UTC

GmtSubmittedTime

String

2021-01-12T14:35:01Z

作业提交时间(UTC)

GmtRunningTime

String

2021-01-12T14:35:01Z

作业开始运行时间(UTC)

GmtSuccessedTime

String

2021-01-12T14:35:01Z

作业成功完成时间(UTC)

GmtStoppedTime

String

2021-01-12T14:35:01Z

作业停止时间(UTC)

GmtFailedTime

String

2021-01-12T14:35:01Z

作业失败时间(UTC)

GmtFinishTime

String

2021-01-12T15:36:08Z

作业结束时间,UTC

Duration

Long

3602

作业运行时长,单位:秒

Settings

JobSettings

作业额外参数

EnabledDebugger

Boolean

false

是否开启了debugger分析

ResourceName

String

my_resource_group

作业运行的资源名称

Priority

Integer

1

任务优先级

JobSettings

任务额外参数配置

参数名称

类型

示例值

描述

BusinessUserId

String

16****

作业关联用户ID

Caller

String

SilkFlow

调用方

Tags

Map

自定义标签

PipelineId

String

pid-123456

工作流ID

EnableTideResource

Boolean

true

允许任务使用潮汐资源

EnableErrorMonitoringInAIMaster

Boolean

false

允许打开作业容错监控

ErrorMonitoringArgs

String

--enable-log-hang-detection true

用户指定容错监控的配置参数,比如指定是否启动基于log hang的检测

EnableRDMA

Boolean

true

允许作业使用RDMA

JobSpec

描述一种类型的Worker的详细配置,包括硬件规格,运行镜像,副本数量等。

参数名称

类型

示例值

描述

Type

String

Worker

Type与Job Type紧密相关,不同Job Type支持不同的Worker Type。

  • TFJob:Chief, PS, Worker, Master

  • PyTorchJob: Worker, Master

Image

String

registry.cn-hangzhou.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04

此类Worker的运行镜像地址,可以调用 ListImages 获取PAI平台提供的社区和PAI优化过的镜像。也可以指定第三方公开的镜像。

PodCount

Long

1

副本数量。

EcsSpec

String

ecs.c6.large

Worker的硬件规格,请访问 PAI-DLC计费说明 获取详细规格列表。请注意,不同规格的价格会有区别。

ExtraPodSpec

ExtraPodSpec

额外的Pod配置

ResourceConfig

ResourceConfig

资源配置

UseSpotInstance

Boolean

false

是否使用竞价实例

Metric

监控指标。

参数名称

类型

示例值

描述

Time

Long

1616987726587

时间戳(Unix Timestamp),单位为毫秒。

Value

Float

23.45

监控数据的值。

PodMetric

任务监控数据。

参数名称

类型

示例值

描述

PodId

String

dlc-20210329110128-******-worker-0

节点ID。

Metrics

Array of Metric

监控数据列表。

ResourceConfig

资源配置

参数名称

类型

示例值

描述

CPU

String

10

CPU核心数

GPU

String

3

GPU核心数

Memory

String

10Gi

内存容量

SharedMemory

String

5Gi

共享内存容量

GPUType

String

Tesla-V100-16G

显卡类型

ResourceRequirements

容器资源

参数名称

类型

示例值

描述

Limits

Map

资源限制

Requests

Map

资源需求

Tensorboard

tensorboard

参数名称

类型

示例值

描述

TensorboardId

String

tensorboard-xxx

Tensorboard Id

TensorboardUrl

String

http://xxxxxx

Tensorboard URL

Status

String

running

状态

Duration

String

1234567

运行时长

GmtCreateTime

String

2021-01-12T14:35:00Z

创建时间(UTC)

GmtModifyTime

String

2021-01-12T14:36:00Z

修改时间(UTC)

RequestId

String

473469C7-AA6F-4DC5-B3DB-A3DC0DE3C83E

请求Id

DisplayName

String

test

展示名称

DataSourceId

String

datasource-test

数据源Id

SummaryPath

String

/root/data

文件路径

UserId

String

lycxxxxx

创建者

ReasonCode

String

Delete by user

状态详情码

ReasonMessage

String

Tensorboard is deleted

状态详情

JobId

String

dlc-20210114104214-vf9lowjt3pso

任务Id

阿里云首页 机器学习PAI 相关技术圈