如何快速部署一个专属服务-大模型服务平台百炼(Model Studio)-阿里云帮助中心

本文档以千问模型的部署为例进行说明，使用 API（HTTP）调用方式帮助您使用阿里云百炼提供的模型部署功能。

重要

本文档仅适用于中国大陆版（北京地域）。

前提条件

您已经完整阅读了模型部署简介，熟悉如何在阿里云百炼平台进行模型部署的支持的模型和基本步骤。
您需要已获取API Key并配置API Key到环境变量。

1. 部署模型

下面的命令使用已经调优好的自定义模型qwen3-8b-ft-202511132025-0260，创建一个专属服务qwen3-8b-ft-202511132025-0260。

获取自定义模型 ID 的方法：前往百炼控制台-模型调优，点击需要部署的任务名称 -> 模型产出 -> 发布至我的模型 -> 点击蓝色字体的模型名称，进入我的模型页面。

PixPin_2025-11-20_20-05-27

使用 Code 作为输入的model_name参数，即可使用 API 部署该模型。

PixPin_2025-11-20_20-08-52

按模型单元的使用时长收费

说明

执行以下部署命令后，即便您还没有调用模型，模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则，再执行部署命令。

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{        
    "model_name": "qwen-plus-2025-12-01",
    "plan": "mu",
    "deploy_spec": "MU1",
    "enable_thinking": true,
    "capacity": 4,
    "max_context_length": 10000,
    "rpm_limit": 500,
    "tpm_limit": 1000
}'

模型单元部署模式还支持以下更多设置：

配置内容	配置详情
配置模型推理模式	少部分模型的模型单元部署模式可选。 Instruct - 模型部署后以非思考模式进行推理。 Thinking - 模型部署后以思考模式进行推理。
最长上下文	部分模型的模型单元部署模式支持该设置。最长上下文长度基于模型类型。
服务限流	部分模型的模型单元部署模式支持该设置，可限制模型调用的 RPM、TPM。

如何在 API 设置上述内容，请参考：使用 API 创建模型部署任务。

按模型 Token 使用量收费

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{        
    "model_name": "qwen3-8b-ft-202511132025-0260",
    "plan": "lora",
    "capacity": 1,
    "diaplay_name": "qwen3-8b-ft"
}'

capacity 参数设置无效，但必须填写。如需希望扩缩容，请前往百炼模型部署控制台填写表单申请。

按算力单元的使用时长收费（仅适用于图片生成、视频生成）

说明

执行以下部署命令后，即便您还没有调用模型，模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则，再执行部署命令。

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{        
    "model_name": "animate-anyone-detect",
    "capacity": 2
}'

命令执行成功后，返回如下结果：

{
    "request_id": "83b173ab-2b2f-41aa-8c57-b173e8be934e",
    "output":
    {
        "deployed_model": "qwen3-8b-ft-202511132025-0260",
        "gmt_create": "2025-11-20T20:06:46.405",
        "gmt_modified": "2025-11-20T20:06:46.405",
        "status": "PENDING",
        "model_name": "qwen3-8b-ft-202511132025-0260",
        "base_model": "qwen3-8b",
        "workspace_id": "llm-8v*****",
        "charge_type": "post_paid",
        "creator": "16542*****",
        "modifier": "16542*****",
        "plan": "***"
    }
}

其中deployed_model为专属服务的唯一ID。

2. 查询服务状态

通过以下命令查询指定专属服务的详细信息：

curl "https://dashscope.aliyuncs.com/api/v1/deployments/qwen3-8b-ft-202511132025-0260" \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --header 'Content-Type: application/json'

命令执行成功后，返回如下结果：

{
    "request_id": "ca36952d-9136-426e-ab08-68a97ad72719",
    "output":
    {
        "deployed_model": "qwen3-8b-ft-202511132025-0260",
        "gmt_create": "2025-11-20T20:32:08",
        "gmt_modified": "2025-11-20T20:42:25",
        "status": "RUNNING",
        "model_name": "qwen3-8b-ft-202511132025-0260",
        "base_model": "qwen3-8b",
        "base_capacity": 2,
        "capacity": 2,
        "ready_capacity": 2,
        "workspace_id": "llm-8v53etv3hwb8orx1",
        "charge_type": "post_paid",
        "creator": "1654290265984853",
        "modifier": "1654290265984853",
        "plan": "mu",
        "model_unit_spec": "MU1"
    }
}

当服务状态为RUNNING时，服务部署完成。

3. 执行推理请求

说明

若首次使用DashScope SDK，请参考安装SDK。

请确保 API Key 所在的业务空间与模型部署所在的业务空间相同。

通过SDK对专属服务发起请求：

from dashscope import Generation
from http import HTTPStatus
import os

response = Generation.call(
    model='qwen3-8b',
    prompt='你是谁？',
    enable_thinking=False,
    api_key=os.getenv('DASHSCOPE_API_KEY'),
)

if response.status_code == HTTPStatus.OK:
    print(response.output)
    print(response.usage)
else:
    print(response.code)
    print(response.message)

代码执行成功后，返回如下结果：

{"text": "我是Qwen，由阿里云开发的超大规模语言模型。我被设计用于生成各种类型的文本，如文章、故事、诗歌等，并能根据不同的场景和需求进行对话、解答问题、提供信息和帮助等。很高兴为您服务！如果您有任何问题或需要帮助，请随时告诉我。", "finish_reason": "stop", "choices": null}
{"input_tokens": 11, "output_tokens": 63, "total_tokens": 74}

4. 删除专属服务

警告

执行以下删除命令后，模型部署服务将立即开始下线，且不可恢复。您将：

无法调用该模型。
部署服务停止计费。

不再使用的专属服务，可以通过下面的命令删除：

curl --request DELETE 'https://dashscope.aliyuncs.com/api/v1/deployments/qwen3-8b-ft-202511132025-0260' \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --header 'Content-Type: application/json'

命令执行成功后，返回以下结果：

{
    "request_id": "8f726017-6042-420e-a465-0d366a3aba59",
    "output":
    {
        "deployed_model": "qwen3-8b-ft-202511132025-0260",
        "gmt_create": "2025-11-20T20:32:08",
        "gmt_modified": "2025-11-27T16:35:31.591",
        "status": "DELETING",
        "model_name": "qwen3-8b-ft-202511132025-0260",
        "base_model": "qwen3-8b",
        "base_capacity": 2,
        "capacity": 2,
        "ready_capacity": 2,
        "workspace_id": "llm-8v53etv3hwb8orx1",
        "charge_type": "post_paid",
        "creator": "1654290265984853",
        "modifier": "1654290265984853",
        "plan": "mu",
        "model_unit_spec": "MU1"
    }
}

删除成功后，再使用2. 查询服务状态接口将无法查询到部署模型的状态。

API参考

详细API调用请参考API 详情。

常见问题

模型部署时报错权限不足怎么办？

在使用 API 进行模型部署时，需要确保：

API Key 的归属业务空间拥有管理该模型的权限。请前往百炼的业务空间管理页面，检查对应业务空间的模型部署权限设置。
API 调用报错：Workspace xxx does not have deployment privilege for model xxxx。
如果提示权限不足，请联系您的组织或 IT 管理员添加相关权限或代为操作。
API Key 的归属账号在归属业务空间中拥有操作权限。请前往百炼控制台，点击左下角的业务空间，切换到对应业务空间，再点击检查对应业务空间的模型部署权限设置。
API 调用报错：Workspace access denied。
如果提示权限不足，请联系您的组织或 IT 管理员添加相关权限或代为操作。