SubmitJob - 提交作业

调用SubmitJob在指定集群提交作业。

接口说明

在集群提交作业前,请确认上传作业文件(如 job.sh)到集群。具体操作,请参见 CreateJobFile

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

授权信息

下表是API对应的授权信息,可以在RAM权限策略语句的Action元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:

  • 操作:是指具体的权限点。
  • 访问级别:是指每个操作的访问级别,取值为写入(Write)、读取(Read)或列出(List)。
  • 资源类型:是指操作中支持授权的资源类型。具体说明如下:
    • 对于必选的资源类型,用背景高亮的方式表示。
    • 对于不支持资源级授权的操作,用全部资源表示。
  • 条件关键字:是指云产品自身定义的条件关键字。
  • 关联操作:是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限,操作才能成功。
操作访问级别资源类型条件关键字关联操作
ehpc:SubmitJobWrite
  • 全部资源
    *

请求参数

名称类型必填描述示例值
ClusterIdstring

集群 ID。

您可以通过调用 ListClusters 获取集群 ID。

ehpc-hz-FYUr32****
CommandLinestring

执行作业命令。

./LammpsTest/lammps.pbs
RunasUserstring

执行作业的用户名。

您可以通过调用 ListUsers 获取该集群中的用户名。

testuser
RunasUserPasswordstring

用户密码。

12****
Namestring

作业名称。长度为 6~30 个字符,必须以英文字母开头,可以包含数字、半角句号(.)。

jobtest
Priorityinteger

作业优先级,取值范围:0~9,取值越大,优先级越高。

默认值:0

0
PackagePathstring

执行作业路径。

./Tem
StdoutRedirectPathstring

标准输出路径。

./LammpsTest
StderrRedirectPathstring

错误输出路径。

./LammpsTest
ReRunableboolean

是否支持重新执行作业。取值范围:

  • true:支持
  • false:不支持
false
ArrayRequeststring

队列作业。

格式 X-Y:Z, 最小值 X 是第一个索引,最大值 Y 是最后一个索引,Z 表示步长,例如 2-7:2,表示作业队列包含编号为 2、4、6 的 3 个子作业。

1-10:2
Variablesstring

执行作业的环境变量,可以在作业执行文件中访问环境变量。

[{Name:test1,Value:value1},{Name:test2,Value:value2}]
InputFileUrlstring

上传到 OSS 的作业文件的 URL 地址。

https://ehpc-hangzhou.oss-cn-hangzhou.aliyuncs.com/test-u4****/testlist_ehpc.sh
UnzipCmdstring

解压命令。解压 OSS 下载的文件。取值范围:

  • tar xzf:解开 gzip 格式压缩包

  • tar xf:解开 tar 格式压缩包

  • unzip:解开 zip 格式压缩包

tar xzf
PostCmdLinestring

提交作业后执行的命令。

example.sh
ContainerIdstring

容器应用 ID。如果选择使用容器执行作业,必须提供容器应用 ID。

您可以通过调用 ListContainerApps 获取容器应用 ID。

ehpc-container-uerfrfffff****
JobQueuestring

执行作业的队列名称。

您可以通过调用 ListQueues 获取队列名称。

workq
Nodeinteger

执行作业所需的计算节点数。

说明 若该参数为空,则参数 Cpu、Task、Thread、Mem、Gpu 不生效。
2
Cpuinteger

单个计算节点所需的 CPU 核数。

2
Taskinteger

单个计算节点创建的进程数。

适用于 MPI 作业。

2
Threadinteger

单个计算节点创建的线程数。

适用于 OpenMP 作业。

1
Memstring

单个计算节点最大使用内存数,支持 GB、MB、KB,单位不区分大小写。

1GB
Gpuinteger

单个计算节点使用 GPU 的数量。

仅支持使用 PBS 调度器的集群,且集群内计算节点含 GPU 时该参数生效。

1
ClockTimestring

作业最大运行时间,支持三种格式:

  • hh:mm:ss
  • mm:ss
  • ss

推荐使用第一种格式。若最大运行时间为 12 小时,示例:12:00:00。

12:00:00
JobRetry.Countinteger

任务重试次数,取值范围 1~10。当前任务重试功能仅适用于 PBS 集群。

说明 若该参数为空,则参数 JobRetry.Priority、JobRetry.OnExitCode 不生效。
5
JobRetry.Priorityinteger

重试作业优先级,取值范围:0~9,取值越大,优先级越高。

说明 若该参数为空,则重试作业优先级=min{原作业优先级+1, 9}
1
JobRetry.OnExitCodeinteger

作业重试条件。退出码为参数值时,触发作业重试。

说明 若该参数为空,退出码非 0 时触发作业重试。
1
Asyncboolean

采用异步消息链路提交作业。

默认值:false。

false

返回参数

名称类型描述示例值
object
JobIdstring

作业 ID。

1.manager
RequestIdstring

请求 ID。

04F0F334-1335-436C-A1D7-6C044FE7****

示例

正常返回示例

JSON格式

{
  "JobId": "1.manager",
  "RequestId": "04F0F334-1335-436C-A1D7-6C044FE7****"
}

错误码

HTTP status code错误码错误信息描述
400InvalidParamsThe specified parameter %s is invalid.无效的参数:%s
400NotEnabledYou have not enabled this service您的账户还未开通此服务
400InDebtYour account has overdue payments.您的账户已欠费
403InvalidClusterStatusThe operation failed due to invalid cluster status.集群状态不允许执行本次操作。
403ConflictOptA conflicting operation is running.有冲突的操作在执行中,请您稍后再试。
403UsernameExistThe username already exists.用户名已存在
403IncorrectCredentialThe username or password is incorrect.用户名或密码错误
403AgentError.Account.ValidateCredentialFailureUsername or password verification failed.用户名或密码验证失败
404ClusterNotFoundThe specified cluster does not exist.指定的集群不存在,请您检查该参数是否正确。
404ContainerNotFoundThe specified container does not exist.指定的容器应用不存在
404ManagerNotFoundThe manager nodes do not exist or their status is abnormal.管理节点不存在或状态异常。
406AgentError.Job.SubmitFailureFailed to submit jobs: %s提交作业失败: {%s}
406AgentError.Job.InvalidContainerTypeUnsupported container type: %s.无效容器类型:%s
406AliyunErrorAn Alibaba Cloud product error occurred.阿里云产品错误
406AgentError.Account.AccountValidateCredentialFailureCannot get user info无法获取用户信息
406AgentResponseTimeoutAgent response timeout: %s代理响应超时
406AgentErrorThe agent service request failed: %s代理请求失败
407NotAuthorizedYou are not authorized by RAM for this request.此请求未获得RAM授权
409PartFailurePart of the batch operation failed.批量操作部分失败
500UnknownErrorAn unknown error occurred.未知错误
503ServiceUnavailableThe request has failed due to a temporary failure of the server请求失败,服务暂时不可用

访问错误中心查看更多错误码。

变更历史

变更时间变更内容概要操作
2023-03-07OpenAPI 错误码发生变更、OpenAPI 入参发生变更看变更集
变更项变更内容
错误码OpenAPI 错误码发生变更
    删除错误码:400
    删除错误码:403
    删除错误码:404
    删除错误码:406
    删除错误码:407
    删除错误码:409
    删除错误码:500
    删除错误码:503
入参OpenAPI 入参发生变更
    新增入参:JobRetry.Count
    新增入参:JobRetry.Priority
    新增入参:JobRetry.OnExitCode
2022-11-15OpenAPI 错误码发生变更看变更集
变更项变更内容
错误码OpenAPI 错误码发生变更
    删除错误码:400
    删除错误码:403
    删除错误码:404
    删除错误码:406
    删除错误码:407
    删除错误码:409
    删除错误码:500
    删除错误码:503