描述模型部署任务对象的属性和结构。
当前模型部署 API 仅在北京 Region 开放。如您使用其他 Region,请通过该 Region 的百炼控制台完成模型部署操作。
以下为部署任务的响应对象字段定义。通过创建部署接口创建,可通过查询部署详情和列举部署接口获取。
响应参数
|
参数 |
类型 |
说明 |
|
request_id |
String |
本次请求的ID。 |
|
output |
Object |
本次部署任务的详细信息。 |
|
deployed_model |
String |
新模型的唯一标识。在发起模型调用请求时需要在SDK参数传入。 |
|
gmt_create |
String |
创建部署任务的时间。 |
|
gmt_modified |
String |
修改部署任务的时间。 |
|
status |
String |
部署任务的状态。
|
|
model_name |
String |
部署任务使用的模型名称。 |
|
base_model |
String |
部署任务使用的模型对应的基础模型ID。 |
|
base_capacity |
Number |
基础模型运行所需的最小资源单元数量。 |
|
capacity |
Number |
部署任务使用的资源单元数量。 |
|
ready_capacity |
Number |
已就绪并可立即处理请求的资源单元数量。受限于资源初始化速度或硬件状态。 |
|
workspace_id |
String |
部署任务所属的业务空间ID。 |
|
charge_type |
String |
部署任务的扣费方法。
|
|
creator |
String |
该部署任务创建人UID。 |
|
modifier |
String |
对该部署任务进行最后一次操作的账号UID。 |
|
plan |
String |
部署任务的计费模式。(部分模式不显示该参数) |
|
仅模型单元部署方式响应 |
||
|
model_unit_spec |
String |
模型单元规格。 |
|
enable_thinking |
Boolean |
是否开启思考模式,部分模型支持。 |
|
max_context_length |
Number |
最大上下文长度限制。 |
|
rpm_limit |
String |
Requests per minute,每分钟请求数。 |
|
tpm_limit |
Number |
Token per minute,每分钟 Token 使用量。 |
|
仅预置吞吐量(ptu)部署方式响应 |
||
|
ptu_capacity |
Object |
当设置 样例: |
|
ptu_capacity.input_tpm |
Number |
所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。 |
|
ptu_capacity.output_tpm |
Number |
所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。 |
|
ptu_capacity.thinking_output_tpm |
Number |
部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。 |