本产品(人工智能平台 PAI - 分布式训练(DLC)/2020-12-03)的OpenAPI采用ROA签名风格,签名细节参见签名机制说明我们已经为开发者封装了常见编程语言的SDK,开发者可通过下载SDK直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK不能满足使用需求,可通过签名机制进行自签名对接。由于自签名细节非常复杂,需花费 5个工作日左右。因此建议加入我们的服务钉钉群(78410016550),在专家指导下进行签名对接。
在使用API前,您需要准备好身份账号及访问密钥(AccessKey),才能有效通过客户端工具(SDK、CLI等)访问API。细节请参见获取AccessKey

任务

API标题API概述
CreateJob创建任务创建一个任务到集群中运行。您可以指定数据源配置、代码源配置、启动命令以及任务运行的每个节点的计算资源配置等信息。
DeleteJob删除任务删除一个运行结束(或者已停止)的任务。
UpdateJob更新任务配置更新一个任务的配置信息,例如修改一个排队中任务的优先级。
StopJob停止任务停止一个正在运行的任务。
ListJobs获取任务列表获取任务列表,支持分页、排序和按条件过滤。
GetJob获取任务详情获取一个任务的详细配置和运行时信息。
GetJobSanityCheckResult获取任务某次算力健康检测结果获取DLC任务某次算力健康检测结果。
ListJobSanityCheckResults获取任务所有算力健康检测结果获取某个DLC任务所有算力健康检测的检测结果。
GetPodLogs获取任务中某个节点的日志获取(或者下载)任务某个节点的日志,日志来源于系统和用户脚本的stdoutstderr。
GetPodEvents获取任务中某个节点的系统事件获取一个任务中某个节点的系统事件。
GetJobMetrics获取任务的监控数据获取一个任务的监控数据,包括CPU、GPU、Memory的使用率、Network、Disk读写速率等。
GetJobEvents获取任务的系统事件获取一个任务的系统事件。
ListEcsSpecs查询机器资源配置列表查询当前支持的机器资源配置列表。
GetWebTerminal获取进入容器的链接获取进入容器的连接。
GetToken获取任务分享令牌获取用户Token。

Tensorboard

API标题API概述
CreateTensorboard创建Tensorboard创建一个Tensorboard,可以通过一个任务或者指定数据源配置来创建。
DeleteTensorboard删除Tensorboard删除一个已经停止的Tensorboard。
StartTensorboard启动Tensorboard启动一个Tensorboard。
UpdateTensorboard更新Tensorboard更新一个Tensorboard。
StopTensorboard停止Tensorboard停止一个Tensorboard。
ListTensorboards查询Tensorboard列表查询已创建的Tensorboard列表。
GetTensorboard获取Tensorboard详情获取一个Tensorboard的详细信息。
GetTensorboardSharedUrl获得Tensorboard任务的分享链接获得Tensorboard的分享链接。该链接中包含数字令牌。使用该分享链接可以访问被分享的Tensorboard任务。