JobSettings

更新时间:
复制为 MD 格式

名称

类型

描述

示例值

object

额外参数配置。

BusinessUserId

string

作业关联用户 ID。

16****

Caller

string

调用方。

SilkFlow

Tags

object

自定义标签。

string

标签。

key:value

PipelineId

string

工作流 ID。

pid-12****

EnableTideResource

boolean

允许任务使用潮汐资源。取值如下:

  • true

  • false

true

EnableErrorMonitoringInAIMaster

boolean

允许作业开启容错监控。取值如下:

  • true

  • false

false

ErrorMonitoringArgs

string

启用容错监控后,用于指定容错监控的配置参数,比如指定是否启动基于 log hang 的检测。

--enable-log-hang-detection true

EnableRDMA

boolean

允许作业使用 RDMA。取值如下:

  • true

  • false

true

EnableOssAppend

boolean

是否允许 OSS 追加写。取值如下:

  • true

  • false

true

OversoldType

string

作业的超卖资源使用方式(不接受/可接受/只接受)。

AcceptQuotaOverSold

AdvancedSettings

object

额外高级参数配置。

Driver

string

NVIDIA 驱动配置。

535.54.03

EnableSanityCheck

boolean

允许作业开启算力健康检测。取值如下:

  • true

  • false

true

SanityCheckArgs

string

算力健康检测的配置参数。

--sanity-check-timing=AfterJobFaultTolerant --sanity-check-timeout-ops=MarkJobFail

JobReservedMinutes

integer

作业结束后保留的时长(分钟)。

30

JobReservedPolicy

string

作业结束后保留的策略。

Always

EnableCPUAffinity

boolean

CPU 亲和性设置,仅在使用通用计算预付费资源时该设置有效

true

DisableEcsStockCheck

boolean

是否跳过库存校验。取值如下:

  • true

  • false

false

AllocateAllRDMADevices

boolean

是否需要挂载全部 RDMA 网卡

EnableDSWDev

boolean

DataJuicerConfig DataJuicerConfig

DataJuicer 任务配置。

ModelConfig ModelConfig

产出模型配置,该参数目前只在联合训练场景中生效

AllowUnschedulableNodes

boolean