|
名称 |
类型 |
描述 |
示例值 |
|---|---|---|---|
|
object |
额外参数配置。 |
||
| BusinessUserId |
string |
作业关联用户 ID。 |
16**** |
| Caller |
string |
调用方。 |
SilkFlow |
| Tags |
object |
自定义标签。 |
|
|
string |
标签。 |
key:value |
|
| PipelineId |
string |
工作流 ID。 |
pid-12**** |
| EnableTideResource |
boolean |
允许任务使用潮汐资源。取值如下:
|
true |
| EnableErrorMonitoringInAIMaster |
boolean |
允许作业开启容错监控。取值如下:
|
false |
| ErrorMonitoringArgs |
string |
启用容错监控后,用于指定容错监控的配置参数,比如指定是否启动基于 log hang 的检测。 |
--enable-log-hang-detection true |
| EnableRDMA |
boolean |
允许作业使用 RDMA。取值如下:
|
true |
| EnableOssAppend |
boolean |
是否允许 OSS 追加写。取值如下:
|
true |
| OversoldType |
string |
作业的超卖资源使用方式(不接受/可接受/只接受)。 |
AcceptQuotaOverSold |
| AdvancedSettings |
object |
额外高级参数配置。 |
|
| Driver |
string |
NVIDIA 驱动配置。 |
535.54.03 |
| EnableSanityCheck |
boolean |
允许作业开启算力健康检测。取值如下:
|
true |
| SanityCheckArgs |
string |
算力健康检测的配置参数。 |
--sanity-check-timing=AfterJobFaultTolerant --sanity-check-timeout-ops=MarkJobFail |
| JobReservedMinutes |
integer |
作业结束后保留的时长(分钟)。 |
30 |
| JobReservedPolicy |
string |
作业结束后保留的策略。 |
Always |
| EnableCPUAffinity |
boolean |
CPU 亲和性设置,仅在使用通用计算预付费资源时该设置有效 |
true |
| DisableEcsStockCheck |
boolean |
是否跳过库存校验。取值如下:
|
false |
| AllocateAllRDMADevices |
boolean |
是否需要挂载全部 RDMA 网卡 |
|
| EnableDSWDev |
boolean |
||
| DataJuicerConfig | DataJuicerConfig |
DataJuicer 任务配置。 |
|
| ModelConfig | ModelConfig |
产出模型配置,该参数目前只在联合训练场景中生效 |
|
| AllowUnschedulableNodes |
boolean |
该文章对您有帮助吗?