API概览

更新时间:
复制为 MD 格式

本产品(pai-dlc/2020-12-03)的OpenAPI采用ROA签名风格,签名细节参见签名机制说明。我们已经为开发者封装了常见编程语言的SDK,开发者可通过下载SDK直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK不能满足使用需求,可通过签名机制进行自签名对接。由于自签名细节非常复杂,需花费 5个工作日左右。因此建议加入我们的服务钉钉群(147535001692),在专家指导下进行签名对接。

在使用API前,您需要准备好身份账号及访问密钥(AccessKey),才能有效通过客户端工具(SDK、CLI等)访问API。细节请参见获取AccessKey

任务

API

标题

API概述

CreateJob 创建任务 创建一个任务到集群中运行。您可以指定数据源配置、代码源配置、启动命令以及任务运行的每个节点的计算资源配置等信息
DeleteJob 删除任务 删除一个运行结束(或者已停止)的任务。
UpdateJob 更新任务配置 更新一个任务的配置信息,例如修改一个排队中任务的优先级。
StopJob 停止任务 停止一个正在运行的任务。
ListJobs 获取任务列表 获取任务列表,支持分页、排序和按条件过滤。
GetJob 获取任务详情 获取一个任务的详细配置和运行时信息。
GetJobSanityCheckResult 获取任务某次算力健康检测结果 获取DLC任务某次算力健康检测结果。
ListJobSanityCheckResults 获取任务所有算力健康检测结果 获取某个DLC任务所有算力健康检测的检测结果。
GetPodLogs 获取任务中某个节点的日志 获取(或者下载)任务某个节点的日志,日志来源于系统和用户脚本的stdoutstderr。
GetPodEvents 获取任务中某个节点的系统事件 通过获取任务中特定节点的系统事件,来进行问题的定位与排查。
GetJobMetrics 获取任务的监控数据 获取一个任务的监控数据,包括CPU、GPU、Memory的使用率、Network、Disk读写速率等。 ⚠️注意:除基于通用计算资源的按量付费(后付费)任务外,其余任务类型均已对接云监控。相关监控调用请使用云监控接口,原接口中已被覆盖的功能将不再维护。更多信息,请参见[训练监控与报警](https://www.alibabacloud.com/help/zh/pai/user-guide/training-monitoring-and-alerting)。
GetJobEvents 获取任务的系统事件 获取一个任务的系统事件。
ListEcsSpecs 查询机器资源配置列表 查询当前支持的机器资源配置列表。
GetWebTerminal 获取容器访问HTTP链接 提供获取容器访问HTTP链接的方法和步骤。
GetToken 获取任务分享令牌 获取DLC任务的分享令牌(Token),用于查看分享任务的相关信息。

Tensorboard

API

标题

API概述

CreateTensorboard 创建Tensorboard 创建一个Tensorboard,可以通过一个任务或者指定数据源配置来创建。
DeleteTensorboard 删除Tensorboard 删除一个已经停止的Tensorboard。
StartTensorboard 启动Tensorboard 启动一个Tensorboard。
UpdateTensorboard 更新Tensorboard 更新一个Tensorboard。
StopTensorboard 停止Tensorboard 停止一个Tensorboard。
ListTensorboards 查询Tensorboard列表 查询已创建的Tensorboard列表。
GetTensorboard 获取Tensorboard详情 获取一个Tensorboard的详细信息。
GetTensorboardSharedUrl 获得Tensorboard任务的分享链接 获得Tensorboard的分享链接。该链接中包含数字令牌。使用该分享链接可以访问被分享的Tensorboard任务。

其他

API

标题

API概述

GetRayDashboard 获取RayDashboard 获取 Ray Dashboard 链接
GetDashboard 获取DLC任务的Dashboard 获取DLC任务的Dashboard URL(如果存在)。