GetJobMetrics - 获取任务的监控数据

获取一个任务的监控数据,包括CPU、GPU、Memory的使用率、Network、Disk读写速率等。 ⚠️注意:除基于通用计算资源的按量付费(后付费)任务外,其余任务类型均已对接云监控。相关监控调用请使用云监控接口,原接口中已被覆盖的功能将不再维护。更多信息,请参见[训练监控与报警](https://www.alibabacloud.com/help/zh/pai/user-guide/training-monitoring-and-alerting)。

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

授权信息

下表是API对应的授权信息,可以在RAM权限策略语句的Action元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:

  • 操作:是指具体的权限点。
  • 访问级别:是指每个操作的访问级别,取值为写入(Write)、读取(Read)或列出(List)。
  • 资源类型:是指操作中支持授权的资源类型。具体说明如下:
    • 对于必选的资源类型,用前面加 * 表示。
    • 对于不支持资源级授权的操作,用全部资源表示。
  • 条件关键字:是指云产品自身定义的条件关键字。
  • 关联操作:是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限,操作才能成功。
操作访问级别资源类型条件关键字关联操作
paidlc:GetJobMetricsget
*全部资源
*

请求语法

GET /api/v1/jobs/{JobId}/metrics HTTP/1.1

请求参数

名称类型必填描述示例值
JobIdstring

任务 ID。您可以调用 ListJobs 获取所有任务的 ID。

dlc-20210126170216-*******
StartTimestring

查询监控数据的时间区间的起始时间(UTC),默认值是 1 小时前。

2020-11-08T16:00:00Z
EndTimestring

查询监控数据的时间区间的截止时间(UTC),默认值是当前。

2020-11-09T16:00:00Z
TimeStepstring

返回监控数据的时间间隔,默认值是 5 分钟。

5m
MetricTypestring

查询监控数据的指标类型,取值如下:

  • GpuCoreUsage:GPU 使用率。

  • GpuMemoryUsage:GPU Memory 使用率。

  • CpuCoreUsage:CPU 使用率。

  • MemoryUsage:Memory 使用率。

  • NetworkInputRate:网络写入速率。

  • NetworkOutputRate:网络写出速率。

  • DiskReadRate:磁盘读取速率。

  • DiskWriteRate:磁盘写入速率。

GpuMemoryUsage
Tokenstring

用于鉴权的临时令牌。

eyXXXX-XXXX.XXXXX

返回参数

名称类型描述示例值
object

任务监控数据信息。

JobIdstring

任务 ID。

dlc-20210126170216-*******
PodMetricsarray

任务监控数据列表。

PodMetricsPodMetric

任务监控数据。

RequestIdstring

本次调用的请求 ID,用于诊断和答疑。

473469C7-AA6F-4DC5-B3DB-A3DC0DE3C83E

示例

正常返回示例

JSON格式

{
  "JobId": "dlc-20210126170216-*******",
  "PodMetrics": [
    {
      "PodId": "dlc-20210329110128-******-worker-0",
      "Metrics": [
        {
          "Time": 1616987726587,
          "Value": 23.45
        }
      ]
    }
  ],
  "RequestId": "473469C7-AA6F-4DC5-B3DB-A3DC0DE3C83E"
}

错误码

访问错误中心查看更多错误码。

变更历史

变更时间变更内容概要操作
2021-04-23新增 OpenAPI查看变更详情