调用GetExperiment API获取实验详情-人工智能平台 PAI-阿里云

获取实验详情。

调试

您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。

授权信息

下表是API对应的授权信息，可以在RAM权限策略语句的Action元素中使用，用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下：

操作：是指具体的权限点。
访问级别：是指每个操作的访问级别，取值为写入（Write）、读取（Read）或列出（List）。
资源类型：是指操作中支持授权的资源类型。具体说明如下：
- 对于必选的资源类型，用前面加 * 表示。
- 对于不支持资源级授权的操作，用全部资源表示。
条件关键字：是指云产品自身定义的条件关键字。
关联操作：是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限，操作才能成功。

操作	访问级别	资源类型	条件关键字	关联操作
eflo:GetExperiment	get	*Experiment `acs:eflo:{#regionId}:{#accountId}:experiment/{#ExperimentId}`	无	无

请求参数

名称	类型	必填	描述	示例值
ExperimentId	long	是	实验 ID	234
ResourceGroupId	string	否	Resource Group Id	rg-kdsfjascjfm3

返回参数

名称	类型	描述	示例值
	object	实验对象
Data	object	数据
Task	object	实验任务
TaskId	long	任务 id	167420
CreateTime	long	创建时间	2024-03-05 18:24:08
UpdateTime	long	更新时间	2024-03-05 18:24:08
StartTime	long	开始时间	2024-03-05 18:24:08
EndTime	long	结束时间	2024-03-05 18:34:08
Params	object	实验参数
	string	环境参数	{}
Scene	string	场景	baseline
Status	string	状态	success
Workload	object	负载信息
WorkloadId	long	负载 id	13
WorkloadName	string	负载名称	test
WorkloadDescription	string	负载描述	test
WorkloadType	string	负载名称	AI
Family	string	负载簇, AI、GPU	AI
Scene	string	负载使用场景	NLP-LLM
Scope	string	负载使用的范围标识	common
JobKind	string	训练任务类型	PyTorchJob
DefaultCpuPerWorker	integer	默认 cpu 分配数	90
DefaultGpuPerWorker	integer	默认 gpu 分配数	8
DefaultMemoryPerWorker	integer	默认内存 GB 分配数	500
DefaultShareMemory	integer	默认共享内存 GB 分配数	500
ParamSettings	array<object>	参数设置
ParamSetting	object
ParamName	string	参数名称	ITERATION
ParamDesc	string	参数描述	迭代数
ParamValue	string	参数值	100
DefaultValue	string	参数默认值	100
ParamRegex	string	参数正则表达式	[0-9]+
ParamType	string	参数类型	number
StaticConfig	object	静态配置
FrameWork	string	框架	pyTorch
SoftwareStack	string	软件栈	python
Os	string	系统	linux
Parameters	string	参数量	7B
VersionId	long	版本号	1
Resource	object	集群信息
ResourceId	long	集群 id	189
ResourceName	string	集群名称	ecs.r8y.4xlarge
CpuCoreLimit	integer	已使用 cpu	90
GpuLimit	integer	已使用 gpu	8
MemoryLimit	long	已使用内存	500
MaxGpu	integer	已使用内存	8
MaxCpuCore	integer	已使用内存	90
MaxMemory	long	已使用内存	500
UserAccessParam	object	用户授权参数
AccessId	string	用户 id	dev
AccessKey	string	用户 key	test
WorkspaceId	string	工作空间 ID	123434542498
Endpoint	string	endpoint	test
MachineType	object	规格类型
MemoryInfo	string	内存信息	32x 64GB DDR4 3200 Memory
Type	string	类型	Public
BondNum	integer	网络 bond 的数量	5
NodeCount	integer	节点个数	1
CpuInfo	string	cpu 的信息	2x Intel Icelake 8369B 32C CPU
NetworkInfo	string	网络信息	1x 100Gbps DP NIC for VPC \n 4x 100Gbps DP RoCE NIC
GpuInfo	string	gpu 的信息	8x NVIDIA SXM4 80GB A100 GPU
DiskInfo	string	磁盘信息	2x 480GB SATA SSD \n 4x 3.84TB NVMe SSD
NetworkMode	string	网络模式	2
Name	string	规格名称	efg1.nvga1n
ResourceNodes	array<object>	资源节点列表
ResourceNode	object
NodeName	string	节点名称	InputCheck
ExperimentId	long	实验 id	1726882991828688898
CreateTime	long	创建时间	2024-11-29 02:16:35
UpdateTime	long	更新时间	2024-11-29 02:16:35
ExperimentName	string	实验名称	test
ExperimentType	string	实验类型	AI
ResourceName	string	资源名称	cifnews-guoyuan
WorkloadName	string	负载名称	test
StartTime	string	任务开始时间	2024-11-29 02:16:35
EndTime	string	任务结束时间	2024-11-29 02:26:35
Status	string	状态	RUNNING
Results	object	任务结果
ExperimentId	long	参数名称	1748274952976261121
Duration	double	时间	764
SecondsPerIteration	double	每次迭代的秒数	1000
SamplesPerSecond	double	每秒采样数	10
Mfu	double	MFU	54.2
WarningWorker	array<object>	警告 worker
WarningWorker	object
ExperimentId	long	实验 id	9
Hostname	string	服务地址	whza008403
PodName	string	Pod 名称。	fluxserv-6fc89b45cf-w8wq6
GpuNum	integer	GPU 数量	8
GpuName	string	GPU 名称	8x OAM 810 GPU
WarningFlag	boolean	是否有报警	true
WarningMsg	string	报警信息	存在慢节点
ErrorFlag	boolean	是否有错误	true
ErrorMsg	string	错误信息	错误信息
Tflops	double	TFLOPS 值	14
SamplesPerSecond	double	吞吐量	15
ErrorWorker	array<object>	错误节点
ErrorWorker	object
ExperimentId	long	实验 id	97
Hostname	string	服务地址	60.188.98.209
PodName	string	Pod 名称。	hzs-forge-sdxl-online-7ff4d86444-pc95h
GpuNum	integer	GPU 数量	8
GpuName	string	GPU 名称	8x OAM 810 GPU
WarningFlag	boolean	是否有报警	false
WarningMsg	string	报警信息	无
ErrorFlag	boolean	是否有错误	true
ErrorMsg	string	错误信息	Connection reset
Tflops	double	TFLOPS 值	12
SamplesPerSecond	double	吞吐量	23
WarningBoundList	array<object>	警告节点
WarningBoundList	object
Iteration	integer	迭代	10
Upper	double	UPPER	56
Lower	double	LOWER	14
TaskIndividualResultList	array<object>	任务无效结果
TaskIndividualResultList	object
ExperimentId	long	实验 ID。	48
Hostname	string	节点主机名称。	p-jt-waf-app1
PodName	string	Pod 名称。	fluxserv-6fc89b45cf-w8wq6
GpuNum	integer	GPU 数量	8
GpuName	string	GPU 名称	8x OAM 810 GPU
WarningFlag	boolean	是否有报警	false
WarningMsg	string	报警信息	无
ErrorFlag	boolean	是否有错误	false
ErrorMsg	string	错误信息	无
Tflops	double	TFLOPS 值	16
SamplesPerSecond	double	吞吐量	28
TaskIndividualResultMap	object	任务无效结果
	array<object>	结果对象
Item	object
ExperimentId	long	实验 id	54
Hostname	string	主机 ip	p-jt-waf-app1
PodName	string	Pod 名称	fluxserv-6fc89b45cf-w8wq6
GpuNum	integer	GPU 数量	8
GpuName	string	GPU 名称	8x OAM 810 GPU
WarningFlag	boolean	是否 warning	false
WarningMsg	string	警告内容	无
ErrorFlag	boolean	是否 errror	false
ErrorMsg	string	错误内容	无
Tflops	double	TFLOPS	45
SamplesPerSecond	double	吞吐量	23
SetParams	object	运行的负载参数
	string	参数	{}
GetParams	object	解析的负载参数
	string	参数	{}
EnvParams	object	运行的环境参数
CpuPerWorker	integer	cpu 分配数	90
GpuPerWorker	integer	gpu 分配数	8
MemoryPerWorker	integer	内存 GB 分配数	500
ShareMemory	integer	共享内存 GB 分配数	500
WorkerNum	integer	节点数	1
CudaVersion	string	cudaVersion	1.0.0
NCCLVersion	string	NCCLVersion	1.0.0
GpuDriverVersion	string	GpuDriverVersion	1.0.0
PyTorchVersion	string	PyTorchVersion	1.0.0
ResourceNodes	array<object>	指定的节点
ResourceNode	object
NodeName	string	节点名称	p-jt-waf-app1
TotalCPU	integer	总的 cpu	90
TotalGPU	integer	总的 gpu	8
TotalMemory	long	总的 memory	500
RequestCPU	integer	当前请求的 cpu	90
RequestGPU	integer	当前请求的 gpu	8
RequestMemory	integer	当前请求的 memory	500
ExtendParam	object	额外的参数
	string	参数	{}
RequestId	string	请求 id	E67E2E4C-2B47-5C55-AA17-1D771E070AEF
AccessDeniedDetail	string	无权限信息	{}
TotalCount	long	查询总数	0

示例

正常返回示例

JSON格式

{
  "Data": {
    "Task": {
      "TaskId": 167420,
      "CreateTime": 0,
      "UpdateTime": 0,
      "StartTime": 0,
      "EndTime": 0,
      "Params": {
        "key": {}
      },
      "Scene": "baseline",
      "Status": "success"
    },
    "Workload": {
      "WorkloadId": 13,
      "WorkloadName": "test",
      "WorkloadDescription": "test",
      "WorkloadType": "AI",
      "Family": "AI",
      "Scene": "NLP-LLM",
      "Scope": "common",
      "JobKind": "PyTorchJob",
      "DefaultCpuPerWorker": 90,
      "DefaultGpuPerWorker": 8,
      "DefaultMemoryPerWorker": 500,
      "DefaultShareMemory": 500,
      "ParamSettings": [
        {
          "ParamName": "ITERATION",
          "ParamDesc": "迭代数",
          "ParamValue": 100,
          "DefaultValue": 100,
          "ParamRegex": "[0-9]+",
          "ParamType": "number"
        }
      ],
      "StaticConfig": {
        "FrameWork": "pyTorch",
        "SoftwareStack": "python",
        "Os": "linux",
        "Parameters": "7B"
      },
      "VersionId": 1
    },
    "Resource": {
      "ResourceId": 189,
      "ResourceName": "ecs.r8y.4xlarge",
      "CpuCoreLimit": 90,
      "GpuLimit": 8,
      "MemoryLimit": 500,
      "MaxGpu": 8,
      "MaxCpuCore": 90,
      "MaxMemory": 500,
      "UserAccessParam": {
        "AccessId": "dev",
        "AccessKey": "test",
        "WorkspaceId": 123434542498,
        "Endpoint": "test"
      },
      "MachineType": {
        "MemoryInfo": "32x 64GB DDR4 3200 Memory",
        "Type": "Public",
        "BondNum": 5,
        "NodeCount": 1,
        "CpuInfo": "2x Intel Icelake 8369B 32C CPU",
        "NetworkInfo": "1x 100Gbps DP NIC for VPC \\n 4x 100Gbps DP RoCE NIC",
        "GpuInfo": "8x NVIDIA SXM4 80GB A100 GPU",
        "DiskInfo": "2x 480GB SATA SSD \\n 4x 3.84TB NVMe SSD",
        "NetworkMode": 2,
        "Name": "efg1.nvga1n"
      },
      "ResourceNodes": [
        {
          "NodeName": "InputCheck"
        }
      ]
    },
    "ExperimentId": 1726882991828689000,
    "CreateTime": 0,
    "UpdateTime": 0,
    "ExperimentName": "test",
    "ExperimentType": "AI",
    "ResourceName": "cifnews-guoyuan",
    "WorkloadName": "test",
    "StartTime": "2024-11-29 02:16:35",
    "EndTime": "2024-11-29 02:26:35",
    "Status": "RUNNING",
    "Results": {
      "ExperimentId": 1748274952976261000,
      "Duration": 764,
      "SecondsPerIteration": 1000,
      "SamplesPerSecond": 10,
      "Mfu": 54.2,
      "WarningWorker": [
        {
          "ExperimentId": 9,
          "Hostname": "whza008403",
          "PodName": "fluxserv-6fc89b45cf-w8wq6",
          "GpuNum": 8,
          "GpuName": "8x OAM 810 GPU",
          "WarningFlag": true,
          "WarningMsg": "存在慢节点",
          "ErrorFlag": true,
          "ErrorMsg": "错误信息",
          "Tflops": 14,
          "SamplesPerSecond": 15
        }
      ],
      "ErrorWorker": [
        {
          "ExperimentId": 97,
          "Hostname": "60.188.98.209",
          "PodName": "hzs-forge-sdxl-online-7ff4d86444-pc95h",
          "GpuNum": 8,
          "GpuName": "8x OAM 810 GPU",
          "WarningFlag": false,
          "WarningMsg": "无",
          "ErrorFlag": true,
          "ErrorMsg": "Connection reset",
          "Tflops": 12,
          "SamplesPerSecond": 23
        }
      ],
      "WarningBoundList": [
        {
          "Iteration": 10,
          "Upper": 56,
          "Lower": 14
        }
      ],
      "TaskIndividualResultList": [
        {
          "ExperimentId": 48,
          "Hostname": "p-jt-waf-app1",
          "PodName": "fluxserv-6fc89b45cf-w8wq6",
          "GpuNum": 8,
          "GpuName": "8x OAM 810 GPU",
          "WarningFlag": false,
          "WarningMsg": "无",
          "ErrorFlag": false,
          "ErrorMsg": "无",
          "Tflops": 16,
          "SamplesPerSecond": 28
        }
      ],
      "TaskIndividualResultMap": {
        "key": [
          {
            "ExperimentId": 54,
            "Hostname": "p-jt-waf-app1\n",
            "PodName": "fluxserv-6fc89b45cf-w8wq6",
            "GpuNum": 8,
            "GpuName": "8x OAM 810 GPU\n",
            "WarningFlag": false,
            "WarningMsg": "无",
            "ErrorFlag": false,
            "ErrorMsg": "无",
            "Tflops": 45,
            "SamplesPerSecond": 23
          }
        ]
      }
    },
    "SetParams": {
      "key": {}
    },
    "GetParams": {
      "key": {}
    },
    "EnvParams": {
      "CpuPerWorker": 90,
      "GpuPerWorker": 8,
      "MemoryPerWorker": 500,
      "ShareMemory": 500,
      "WorkerNum": 1,
      "CudaVersion": "1.0.0",
      "NCCLVersion": "1.0.0",
      "GpuDriverVersion": "1.0.0",
      "PyTorchVersion": "1.0.0",
      "ResourceNodes": [
        {
          "NodeName": "p-jt-waf-app1",
          "TotalCPU": 90,
          "TotalGPU": 8,
          "TotalMemory": 500,
          "RequestCPU": 90,
          "RequestGPU": 8,
          "RequestMemory": 500
        }
      ],
      "ExtendParam": {
        "key": {}
      }
    }
  },
  "RequestId": "E67E2E4C-2B47-5C55-AA17-1D771E070AEF",
  "AccessDeniedDetail": {},
  "TotalCount": 0
}

错误码

HTTP status code	错误码	错误信息	描述
400	NotFound	not found.	数据不存在

访问错误中心查看更多错误码。