GetExperiment - 获取实验详情

获取实验详情。

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

授权信息

下表是API对应的授权信息,可以在RAM权限策略语句的Action元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:

  • 操作:是指具体的权限点。
  • 访问级别:是指每个操作的访问级别,取值为写入(Write)、读取(Read)或列出(List)。
  • 资源类型:是指操作中支持授权的资源类型。具体说明如下:
    • 对于必选的资源类型,用前面加 * 表示。
    • 对于不支持资源级授权的操作,用全部资源表示。
  • 条件关键字:是指云产品自身定义的条件关键字。
  • 关联操作:是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限,操作才能成功。
操作访问级别资源类型条件关键字关联操作
eflo:GetExperimentget
*Experiment
acs:eflo:{#regionId}:{#accountId}:experiment/{#ExperimentId}

请求参数

名称类型必填描述示例值
ExperimentIdlong

实验 ID

234
ResourceGroupIdstring

Resource Group Id

rg-kdsfjascjfm3

返回参数

名称类型描述示例值
object

实验对象

Dataobject

数据

Taskobject

实验任务

TaskIdlong

任务 id

167420
CreateTimelong

创建时间

2024-03-05 18:24:08
UpdateTimelong

更新时间

2024-03-05 18:24:08
StartTimelong

开始时间

2024-03-05 18:24:08
EndTimelong

结束时间

2024-03-05 18:34:08
Paramsobject

实验参数

string

环境参数

{}
Scenestring

场景

baseline
Statusstring

状态

success
Workloadobject

负载信息

WorkloadIdlong

负载 id

13
WorkloadNamestring

负载名称

test
WorkloadDescriptionstring

负载描述

test
WorkloadTypestring

负载名称

AI
Familystring

负载簇, AI、GPU

AI
Scenestring

负载使用场景

NLP-LLM
Scopestring

负载使用的范围标识

common
JobKindstring

训练任务类型

PyTorchJob
DefaultCpuPerWorkerinteger

默认 cpu 分配数

90
DefaultGpuPerWorkerinteger

默认 gpu 分配数

8
DefaultMemoryPerWorkerinteger

默认内存 GB 分配数

500
DefaultShareMemoryinteger

默认共享内存 GB 分配数

500
ParamSettingsarray<object>

参数设置

ParamSettingobject
ParamNamestring

参数名称

ITERATION
ParamDescstring

参数描述

迭代数
ParamValuestring

参数值

100
DefaultValuestring

参数默认值

100
ParamRegexstring

参数正则表达式

[0-9]+
ParamTypestring

参数类型

number
StaticConfigobject

静态配置

FrameWorkstring

框架

pyTorch
SoftwareStackstring

软件栈

python
Osstring

系统

linux
Parametersstring

参数量

7B
VersionIdlong

版本号

1
Resourceobject

集群信息

ResourceIdlong

集群 id

189
ResourceNamestring

集群名称

ecs.r8y.4xlarge
CpuCoreLimitinteger

已使用 cpu

90
GpuLimitinteger

已使用 gpu

8
MemoryLimitlong

已使用内存

500
MaxGpuinteger

已使用内存

8
MaxCpuCoreinteger

已使用内存

90
MaxMemorylong

已使用内存

500
UserAccessParamobject

用户授权参数

AccessIdstring

用户 id

dev
AccessKeystring

用户 key

test
WorkspaceIdstring

工作空间 ID

123434542498
Endpointstring

endpoint

test
MachineTypeobject

规格类型

MemoryInfostring

内存信息

32x 64GB DDR4 3200 Memory
Typestring

类型

Public
BondNuminteger

网络 bond 的数量

5
NodeCountinteger

节点个数

1
CpuInfostring

cpu 的信息

2x Intel Icelake 8369B 32C CPU
NetworkInfostring

网络信息

1x 100Gbps DP NIC for VPC \n 4x 100Gbps DP RoCE NIC
GpuInfostring

gpu 的信息

8x NVIDIA SXM4 80GB A100 GPU
DiskInfostring

磁盘信息

2x 480GB SATA SSD \n 4x 3.84TB NVMe SSD
NetworkModestring

网络模式

2
Namestring

规格名称

efg1.nvga1n
ResourceNodesarray<object>

资源节点列表

ResourceNodeobject
NodeNamestring

节点名称

InputCheck
ExperimentIdlong

实验 id

1726882991828688898
CreateTimelong

创建时间

2024-11-29 02:16:35
UpdateTimelong

更新时间

2024-11-29 02:16:35
ExperimentNamestring

实验名称

test
ExperimentTypestring

实验类型

AI
ResourceNamestring

资源名称

cifnews-guoyuan
WorkloadNamestring

负载名称

test
StartTimestring

任务开始时间

2024-11-29 02:16:35
EndTimestring

任务结束时间

2024-11-29 02:26:35
Statusstring

状态

RUNNING
Resultsobject

任务结果

ExperimentIdlong

参数名称

1748274952976261121
Durationdouble

时间

764
SecondsPerIterationdouble

每次迭代的秒数

1000
SamplesPerSeconddouble

每秒采样数

10
Mfudouble

MFU

54.2
WarningWorkerarray<object>

警告 worker

WarningWorkerobject
ExperimentIdlong

实验 id

9
Hostnamestring

服务地址

whza008403
PodNamestring

Pod 名称。

fluxserv-6fc89b45cf-w8wq6
GpuNuminteger

GPU 数量

8
GpuNamestring

GPU 名称

8x OAM 810 GPU
WarningFlagboolean

是否有报警

true
WarningMsgstring

报警信息

存在慢节点
ErrorFlagboolean

是否有错误

true
ErrorMsgstring

错误信息

错误信息
Tflopsdouble

TFLOPS 值

14
SamplesPerSeconddouble

吞吐量

15
ErrorWorkerarray<object>

错误节点

ErrorWorkerobject
ExperimentIdlong

实验 id

97
Hostnamestring

服务地址

60.188.98.209
PodNamestring

Pod 名称。

hzs-forge-sdxl-online-7ff4d86444-pc95h
GpuNuminteger

GPU 数量

8
GpuNamestring

GPU 名称

8x OAM 810 GPU
WarningFlagboolean

是否有报警

false
WarningMsgstring

报警信息

ErrorFlagboolean

是否有错误

true
ErrorMsgstring

错误信息

Connection reset
Tflopsdouble

TFLOPS 值

12
SamplesPerSeconddouble

吞吐量

23
WarningBoundListarray<object>

警告节点

WarningBoundListobject
Iterationinteger

迭代

10
Upperdouble

UPPER

56
Lowerdouble

LOWER

14
TaskIndividualResultListarray<object>

任务无效结果

TaskIndividualResultListobject
ExperimentIdlong

实验 ID。

48
Hostnamestring

节点主机名称。

p-jt-waf-app1
PodNamestring

Pod 名称。

fluxserv-6fc89b45cf-w8wq6
GpuNuminteger

GPU 数量

8
GpuNamestring

GPU 名称

8x OAM 810 GPU
WarningFlagboolean

是否有报警

false
WarningMsgstring

报警信息

ErrorFlagboolean

是否有错误

false
ErrorMsgstring

错误信息

Tflopsdouble

TFLOPS 值

16
SamplesPerSeconddouble

吞吐量

28
TaskIndividualResultMapobject

任务无效结果

array<object>

结果对象

Itemobject
ExperimentIdlong

实验 id

54
Hostnamestring

主机 ip

p-jt-waf-app1
PodNamestring

Pod 名称

fluxserv-6fc89b45cf-w8wq6
GpuNuminteger

GPU 数量

8
GpuNamestring

GPU 名称

8x OAM 810 GPU
WarningFlagboolean

是否 warning

false
WarningMsgstring

警告内容

ErrorFlagboolean

是否 errror

false
ErrorMsgstring

错误内容

Tflopsdouble

TFLOPS

45
SamplesPerSeconddouble

吞吐量

23
SetParamsobject

运行的负载参数

string

参数

{}
GetParamsobject

解析的负载参数

string

参数

{}
EnvParamsobject

运行的环境参数

CpuPerWorkerinteger

cpu 分配数

90
GpuPerWorkerinteger

gpu 分配数

8
MemoryPerWorkerinteger

内存 GB 分配数

500
ShareMemoryinteger

共享内存 GB 分配数

500
WorkerNuminteger

节点数

1
CudaVersionstring

cudaVersion

1.0.0
NCCLVersionstring

NCCLVersion

1.0.0
GpuDriverVersionstring

GpuDriverVersion

1.0.0
PyTorchVersionstring

PyTorchVersion

1.0.0
ResourceNodesarray<object>

指定的节点

ResourceNodeobject
NodeNamestring

节点名称

p-jt-waf-app1
TotalCPUinteger

总的 cpu

90
TotalGPUinteger

总的 gpu

8
TotalMemorylong

总的 memory

500
RequestCPUinteger

当前请求的 cpu

90
RequestGPUinteger

当前请求的 gpu

8
RequestMemoryinteger

当前请求的 memory

500
ExtendParamobject

额外的参数

string

参数

{}
RequestIdstring

请求 id

E67E2E4C-2B47-5C55-AA17-1D771E070AEF
AccessDeniedDetailstring

无权限信息

{}
TotalCountlong

查询总数

0

示例

正常返回示例

JSON格式

{
  "Data": {
    "Task": {
      "TaskId": 167420,
      "CreateTime": 0,
      "UpdateTime": 0,
      "StartTime": 0,
      "EndTime": 0,
      "Params": {
        "key": {}
      },
      "Scene": "baseline",
      "Status": "success"
    },
    "Workload": {
      "WorkloadId": 13,
      "WorkloadName": "test",
      "WorkloadDescription": "test",
      "WorkloadType": "AI",
      "Family": "AI",
      "Scene": "NLP-LLM",
      "Scope": "common",
      "JobKind": "PyTorchJob",
      "DefaultCpuPerWorker": 90,
      "DefaultGpuPerWorker": 8,
      "DefaultMemoryPerWorker": 500,
      "DefaultShareMemory": 500,
      "ParamSettings": [
        {
          "ParamName": "ITERATION",
          "ParamDesc": "迭代数",
          "ParamValue": 100,
          "DefaultValue": 100,
          "ParamRegex": "[0-9]+",
          "ParamType": "number"
        }
      ],
      "StaticConfig": {
        "FrameWork": "pyTorch",
        "SoftwareStack": "python",
        "Os": "linux",
        "Parameters": "7B"
      },
      "VersionId": 1
    },
    "Resource": {
      "ResourceId": 189,
      "ResourceName": "ecs.r8y.4xlarge",
      "CpuCoreLimit": 90,
      "GpuLimit": 8,
      "MemoryLimit": 500,
      "MaxGpu": 8,
      "MaxCpuCore": 90,
      "MaxMemory": 500,
      "UserAccessParam": {
        "AccessId": "dev",
        "AccessKey": "test",
        "WorkspaceId": 123434542498,
        "Endpoint": "test"
      },
      "MachineType": {
        "MemoryInfo": "32x 64GB DDR4 3200 Memory",
        "Type": "Public",
        "BondNum": 5,
        "NodeCount": 1,
        "CpuInfo": "2x Intel Icelake 8369B 32C CPU",
        "NetworkInfo": "1x 100Gbps DP NIC for VPC \\n 4x 100Gbps DP RoCE NIC",
        "GpuInfo": "8x NVIDIA SXM4 80GB A100 GPU",
        "DiskInfo": "2x 480GB SATA SSD \\n 4x 3.84TB NVMe SSD",
        "NetworkMode": 2,
        "Name": "efg1.nvga1n"
      },
      "ResourceNodes": [
        {
          "NodeName": "InputCheck"
        }
      ]
    },
    "ExperimentId": 1726882991828689000,
    "CreateTime": 0,
    "UpdateTime": 0,
    "ExperimentName": "test",
    "ExperimentType": "AI",
    "ResourceName": "cifnews-guoyuan",
    "WorkloadName": "test",
    "StartTime": "2024-11-29 02:16:35",
    "EndTime": "2024-11-29 02:26:35",
    "Status": "RUNNING",
    "Results": {
      "ExperimentId": 1748274952976261000,
      "Duration": 764,
      "SecondsPerIteration": 1000,
      "SamplesPerSecond": 10,
      "Mfu": 54.2,
      "WarningWorker": [
        {
          "ExperimentId": 9,
          "Hostname": "whza008403",
          "PodName": "fluxserv-6fc89b45cf-w8wq6",
          "GpuNum": 8,
          "GpuName": "8x OAM 810 GPU",
          "WarningFlag": true,
          "WarningMsg": "存在慢节点",
          "ErrorFlag": true,
          "ErrorMsg": "错误信息",
          "Tflops": 14,
          "SamplesPerSecond": 15
        }
      ],
      "ErrorWorker": [
        {
          "ExperimentId": 97,
          "Hostname": "60.188.98.209",
          "PodName": "hzs-forge-sdxl-online-7ff4d86444-pc95h",
          "GpuNum": 8,
          "GpuName": "8x OAM 810 GPU",
          "WarningFlag": false,
          "WarningMsg": "无",
          "ErrorFlag": true,
          "ErrorMsg": "Connection reset",
          "Tflops": 12,
          "SamplesPerSecond": 23
        }
      ],
      "WarningBoundList": [
        {
          "Iteration": 10,
          "Upper": 56,
          "Lower": 14
        }
      ],
      "TaskIndividualResultList": [
        {
          "ExperimentId": 48,
          "Hostname": "p-jt-waf-app1",
          "PodName": "fluxserv-6fc89b45cf-w8wq6",
          "GpuNum": 8,
          "GpuName": "8x OAM 810 GPU",
          "WarningFlag": false,
          "WarningMsg": "无",
          "ErrorFlag": false,
          "ErrorMsg": "无",
          "Tflops": 16,
          "SamplesPerSecond": 28
        }
      ],
      "TaskIndividualResultMap": {
        "key": [
          {
            "ExperimentId": 54,
            "Hostname": "p-jt-waf-app1\n",
            "PodName": "fluxserv-6fc89b45cf-w8wq6",
            "GpuNum": 8,
            "GpuName": "8x OAM 810 GPU\n",
            "WarningFlag": false,
            "WarningMsg": "无",
            "ErrorFlag": false,
            "ErrorMsg": "无",
            "Tflops": 45,
            "SamplesPerSecond": 23
          }
        ]
      }
    },
    "SetParams": {
      "key": {}
    },
    "GetParams": {
      "key": {}
    },
    "EnvParams": {
      "CpuPerWorker": 90,
      "GpuPerWorker": 8,
      "MemoryPerWorker": 500,
      "ShareMemory": 500,
      "WorkerNum": 1,
      "CudaVersion": "1.0.0",
      "NCCLVersion": "1.0.0",
      "GpuDriverVersion": "1.0.0",
      "PyTorchVersion": "1.0.0",
      "ResourceNodes": [
        {
          "NodeName": "p-jt-waf-app1",
          "TotalCPU": 90,
          "TotalGPU": 8,
          "TotalMemory": 500,
          "RequestCPU": 90,
          "RequestGPU": 8,
          "RequestMemory": 500
        }
      ],
      "ExtendParam": {
        "key": {}
      }
    }
  },
  "RequestId": "E67E2E4C-2B47-5C55-AA17-1D771E070AEF",
  "AccessDeniedDetail": {},
  "TotalCount": 0
}

错误码

HTTP status code错误码错误信息描述
400NotFoundnot found.数据不存在

访问错误中心查看更多错误码。