部署对象

更新时间:
复制为 MD 格式

描述模型部署任务对象的属性和结构。

当前模型部署 API 仅在北京 Region 开放。如您使用其他 Region,请通过该 Region 的百炼控制台完成模型部署操作。

以下为部署任务的响应对象字段定义。通过创建部署接口创建,可通过查询部署详情列举部署接口获取。

响应参数

参数

类型

说明

request_id

String

本次请求的ID。

output

Object

本次部署任务的详细信息。

deployed_model

String

新模型的唯一标识。在发起模型调用请求时需要在SDK参数传入。

gmt_create

String

创建部署任务的时间。

gmt_modified

String

修改部署任务的时间。

status

String

部署任务的状态。

  • PENDING:正在创建部署任务。

  • UPDATING:正在更新部署任务。

  • RUNNING:部署任务正在运行,此时已部署的模型可以正常处理请求。

  • STOPPED:部署任务已经停止,此时的部署任务不会被计费。

  • DELETING:正在删除部署任务。

  • FAILED:部署任务创建或更新失败。

model_name

String

部署任务使用的模型名称。

base_model

String

部署任务使用的模型对应的基础模型ID。

base_capacity

Number

基础模型运行所需的最小资源单元数量。

capacity

Number

部署任务使用的资源单元数量。

ready_capacity

Number

已就绪并可立即处理请求的资源单元数量。受限于资源初始化速度或硬件状态。

workspace_id

String

部署任务所属的业务空间ID。

charge_type

String

部署任务的扣费方法。

post_paid:后付费。

creator

String

该部署任务创建人UID。

modifier

String

对该部署任务进行最后一次操作的账号UID。

plan

String

部署任务的计费模式。(部分模式不显示该参数)

模型单元部署方式响应

model_unit_spec

String

模型单元规格。

enable_thinking

Boolean

是否开启思考模式,部分模型支持。

max_context_length

Number

最大上下文长度限制。

rpm_limit

String

Requests per minute,每分钟请求数。

tpm_limit

Number

Token per minute,每分钟 Token 使用量。

仅预置吞吐量(ptu)部署方式响应

ptu_capacity

Object

当设置"plan": "ptu"时,该参数才生效。

样例:"ptu_capacity": { "input_tpm": 10000, "output_tpm": 1000 }

ptu_capacity.input_tpm

Number

所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。

ptu_capacity.output_tpm

Number

所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。

ptu_capacity.thinking_output_tpm

Number

部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。