本产品(
人工智能平台 PAI - 分布式训练(DLC)/2020-12-03
)的OpenAPI采用ROA签名风格,签名细节参见签名机制说明。我们已经为开发者封装了常见编程语言的SDK,开发者可通过下载SDK直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK不能满足使用需求,可通过签名机制进行自签名对接。由于自签名细节非常复杂,需花费 5个工作日左右。因此建议加入我们的服务钉钉群(78410016550),在专家指导下进行签名对接。在使用API前,您需要准备好身份账号及访问密钥(AccessKey),才能有效通过客户端工具(SDK、CLI等)访问API。细节请参见获取AccessKey。
任务
API | 标题 | API概述 |
---|---|---|
CreateJob | 创建任务 | 创建一个任务到集群中运行。您可以指定数据源配置、代码源配置、启动命令以及任务运行的每个节点的计算资源配置等信息。 |
DeleteJob | 删除任务 | 删除一个运行结束(或者已停止)的任务。 |
UpdateJob | 更新任务配置 | 更新一个任务的配置信息,例如修改一个排队中任务的优先级。 |
StopJob | 停止任务 | 停止一个正在运行的任务。 |
ListJobs | 获取任务列表 | 获取任务列表,支持分页、排序和按条件过滤。 |
GetJob | 获取任务详情 | 获取一个任务的详细配置和运行时信息。 |
GetJobSanityCheckResult | 获取任务某次算力健康检测结果 | 获取DLC任务某次算力健康检测结果。 |
ListJobSanityCheckResults | 获取任务所有算力健康检测结果 | 获取某个DLC任务所有算力健康检测的检测结果。 |
GetPodLogs | 获取任务中某个节点的日志 | 获取(或者下载)任务某个节点的日志,日志来源于系统和用户脚本的stdout和stderr。 |
GetPodEvents | 获取任务中某个节点的系统事件 | 获取一个任务中某个节点的系统事件。 |
GetJobMetrics | 获取任务的监控数据 | 获取一个任务的监控数据,包括CPU、GPU、Memory的使用率、Network、Disk读写速率等。 |
GetJobEvents | 获取任务的系统事件 | 获取一个任务的系统事件。 |
ListEcsSpecs | 查询机器资源配置列表 | 查询当前支持的机器资源配置列表。 |
GetWebTerminal | 获取进入容器的链接 | 获取进入容器的连接。 |
GetToken | 获取任务分享令牌 | 获取用户Token。 |
Tensorboard
API | 标题 | API概述 |
---|---|---|
CreateTensorboard | 创建Tensorboard | 创建一个Tensorboard,可以通过一个任务或者指定数据源配置来创建。 |
DeleteTensorboard | 删除Tensorboard | 删除一个已经停止的Tensorboard。 |
StartTensorboard | 启动Tensorboard | 启动一个Tensorboard。 |
UpdateTensorboard | 更新Tensorboard | 更新一个Tensorboard。 |
StopTensorboard | 停止Tensorboard | 停止一个Tensorboard。 |
ListTensorboards | 查询Tensorboard列表 | 查询已创建的Tensorboard列表。 |
GetTensorboard | 获取Tensorboard详情 | 获取一个Tensorboard的详细信息。 |
GetTensorboardSharedUrl | 获得Tensorboard任务的分享链接 | 获得Tensorboard的分享链接。该链接中包含数字令牌。使用该分享链接可以访问被分享的Tensorboard任务。 |