获取训练任务的详情。
调试
您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。
调试
授权信息
请求语法
GET /api/v1/trainingjobs/{TrainingJobId} HTTP/1.1
路径参数
|
名称 |
类型 |
必填 |
描述 |
示例值 |
| TrainingJobId |
string |
是 |
训练任务 ID。 |
train129f212o89d |
请求参数
|
名称 |
类型 |
必填 |
描述 |
示例值 |
当前API无需请求参数
返回参数
|
名称 |
类型 |
描述 |
示例值 |
|
object |
|||
| OutputChannels |
array<object> |
训练输出数据配置。 |
|
|
object |
训练输出数据配置。 |
||
| Name |
string |
输出数据名称。 |
model |
| OutputUri |
string |
输出数据链接地址。 |
oss://test-bucket.oss-cn-hangzhou-internal.aliyuncs.com/path/to/output/model/ |
| DatasetId |
string |
数据集 ID。 |
d-8o0hh35po15ejcdq2p |
| VersionName |
string |
数据集版本。 |
v1 |
| Status |
string |
任务状态。 |
Running |
| HyperParameters |
array<object> |
训练超参数配置。 |
|
|
object |
训练超参数配置。 |
||
| Name |
string |
参数名。 |
learning_rate |
| Value |
string |
参数值。 |
0.0001 |
| TrainingJobName |
string |
训练任务名称。 |
qwen_llm |
| TrainingJobId |
string |
训练任务 ID。 |
traini6hhxiq69eo |
| Scheduler |
object |
训练任务调度配置。 |
|
| MaxRunningTimeInSeconds |
string |
最大训练运行时长,单位为秒。数值为 0 时不限制最大运行时常。 |
0 |
| MaxRunningTimeInMinutes |
string |
最大运行时长(分钟)。 |
100 |
| ReasonMessage |
string |
训练任务错误原因。 |
None |
| WorkspaceId |
string |
工作空间 ID。 |
86995 |
| ComputeResource |
object |
计算资源配置。 |
|
| EcsCount |
integer |
Ecs 实例数。 |
1 |
| EcsSpec |
string |
Ecs 型号。 |
ecs.gn5-c8g1.2xlarge |
| ResourceId |
string |
资源配额(Quota)ID。 |
quotam670lixikcl |
| ResourceName |
string |
资源配额名称。 |
quota |
| InstanceCount |
integer |
资源配额使用实例数。 |
1 |
| InstanceSpec |
object |
资源配额实例配置。 |
|
| CPU |
string |
实例 CPU 核数。 |
8 |
| Memory |
string |
实例内存大小,单位为 GiB。 |
32 |
| SharedMemory |
string |
实例共享内存大小,单位为 GiB。 |
32 |
| GPU |
string |
实例 GPU 显卡数量。 |
1 |
| GPUType |
string |
实例 GPU 显卡型号。 |
V100 |
| UseSpotInstance |
boolean |
是否使用抢占式实例。 |
true |
| SpotSpec |
object |
抢占式实例配置。 |
|
| SpotStrategy |
string |
SpotStrategy: 实例的抢占策略,取值范围:
|
SpotWithPriceLimit |
| SpotDiscountLimit |
number |
设置实例的每小时最高价格折扣,参数 SpotStrategy 取值为 SpotWithPriceLimit 时生效。 |
0.9 |
| Labels |
array<object> |
训练任务标签列表。 |
|
|
object |
训练任务标签。 |
||
| Key |
string |
标签名。 |
CreatedBy |
| Value |
string |
标签值。 |
QuickStart |
| AlgorithmProvider |
string |
算法提供方。 |
pai |
| InputChannels |
array<object> |
训练输入数据配置。 |
|
|
object |
训练输入数据配置。 |
||
| DatasetId |
string |
数据集 ID。 |
d-475megosidivjfgfq6 |
| Name |
string |
输入数据名称。 |
model |
| InputUri |
string |
输入数据链接。 |
oss://test-bucket.oss-cn-hangzhou-internal.aliyuncs.com/path/to/input/model/ |
| Options |
string |
输入数据的文件系统参数。 |
ossAppendable=true |
| VersionName |
string |
数据集版本。 |
v1 |
| AlgorithmName |
string |
算法名。 |
llm_training |
| ReasonCode |
string |
训练任务状态码。 |
TrainingJobSucceed |
| GmtModifiedTime |
string |
训练任务状态更新时间。 |
2024-07-10T11:49:47Z |
| StatusTransitions |
array<object> |
训练任务状态变更列表。 |
|
|
object |
训练任务状态变更。 |
||
| EndTime |
string |
状态结束时间。 |
2024-07-10T11:49:47Z |
| ReasonCode |
string |
状态码。 |
TrainingJobSucceed |
| ReasonMessage |
string |
状态更新信息。 |
KubeDL job runs successfully |
| StartTime |
string |
状态开始时间。 |
2024-07-10T11:49:47Z |
| Status |
string |
训练任务状态。 |
Creating |
| TrainingJobDescription |
string |
训练任务描述。 |
Qwen2大语言模型训练。 |
| UserId |
string |
用户 ID。 |
123456789 |
| AlgorithmVersion |
string |
算法版本。 |
v0.0.1 |
| LatestMetrics |
array<object> |
训练任务指标列表。 |
|
|
object |
训练任务监控指标。 |
||
| Name |
string |
指标名。 |
loss |
| Timestamp |
string |
指标收集时间。 |
2024-07-10T11:49:47Z |
| Value |
number |
指标值。 |
0.11 |
| GmtCreateTime |
string |
训练任务创建时间。 |
2024-07-10T11:49:47Z |
| RequestId |
string |
请求 ID。 |
473469C7-AA6F-4DC5-B3DB-A3DC0DE3C83E |
| Instances |
array<object> |
训练任务实例列表。 |
|
|
object |
训练任务实例。 |
||
| Name |
string |
实例名。 |
train1oug3yehan4-master-0 |
| Role |
string |
实例角色。 |
master |
| Status |
string |
实例状态。 |
Succeeded |
| AlgorithmId |
string |
训练算法 ID。 |
algo-xsldfvu1334 |
| TrainingJobUrl |
string |
训练任务详情地址。 |
https://pai.console.aliyun.com/?regionId=cn-hangzhou&workspaceId=1234#/training/jobs/train1ouyadsl8n4 |
| RoleArn |
string |
代理授权使用的角色信息。 |
acs:ram::{accountID}:role/{roleName} |
| AlgorithmSpec | AlgorithmSpec |
临时算法定义。 |
|
| IsTempAlgo |
boolean |
是否使用了临时算法。 |
true |
| LatestProgress |
object |
训练任务进度的最新值。 |
|
| OverallProgress |
object |
训练任务执行的总体进度。 |
|
| Timestamp |
string |
进度时间。 |
2023-07-04T13:20:18Z |
| Value |
number |
进度值。 |
0.75 |
| RemainingTime |
object |
训练任务执行的预估剩余时间(单位秒)。 |
|
| Timestamp |
string |
进度时间。 |
2023-07-04T13:20:18Z |
| Value |
integer |
剩余时间(单位秒)。 |
3600 |
| UserVpc |
object |
用户 VPC 配置。 |
|
| VpcId |
string |
VPC ID。 |
vpc-abcdef**** |
| SwitchId |
string |
交换机 ID。 |
vs-abcdef**** |
| SecurityGroupId |
string |
安全组 ID。 |
sg-abcdef**** |
| ExtendedCIDRs |
array |
扩展网段配置。 |
|
|
string |
扩展网段配置。 |
192.168.0.1/24 |
|
| OutputModel |
object |
训练任务产出的模型。 |
|
| Uri |
string |
模型地址。 |
oss://test-bucket.oss-cn-hangzhou-internal.aliyuncs.com/path/to/model/output/ |
| OutputChannelName |
string |
模型对应的 OutputChannel 名。 |
model |
| Settings | JobSettings |
训练任务额外参数配置。 |
|
| ExperimentConfig |
object |
训练任务关联实验配置。 |
|
| ExperimentId |
string |
训练任务关联实验 ID。 |
exp-ds9aefia90v |
| ExperimentName |
string |
训练任务关联实验名。 |
large_language_model_train |
| Duration |
integer |
训练任务运行时长。单位:秒。 |
7200 |
| Environments |
object |
训练任务环境变量。 |
|
|
string |
训练任务环境变量。 |
debug=true |
|
| PythonRequirements |
array |
训练任务 Python 包配置。 |
|
|
string |
训练任务 Python 包配置。 |
torch>=2.2.0 |
|
| Priority |
integer |
任务优先级。 |
0 |
| AssignNodeSpec |
AssignNodeSpec |
错误码
访问错误中心查看更多错误码。
变更历史
更多信息,参考变更详情。