大模型如何进行部署-阿里云帮助中心

无论是平台的预置模型还是您调优的自定义模型，通过部署可获得独立的、资源专享的推理服务，以满足您对高并发、低延迟等不同性能的业务需求。

重要

本文档仅适用于中国大陆版（北京地域）。

支持的模型

模型类别

支持的模型

适用场景

预置模型

（阿里云百炼支持的标准模型）

通义千问系列、通义万相系列

获取资源实例，保障推理性能与稳定性。

自定义模型

（阿里云百炼平台调优后的模型）

模型调优支持的模型

必须部署后才能推理或评测。

如果需要部署更多其他模型，请参考解决方案并结合具体业务需求选择最适合的部署方案。

支持的计费方式

说明

计费方式在服务创建后无法更改。如需切换，必须下线已经部署的模型后再重新部署。

计费方式	部署方式	支持的模型	扩缩容方式	计费最小单位	优点	产品约束
按使用时长（后付费）	模型单元	所有可部署模型	自助扩缩容	分钟	无需预付，按需使用，灵活启停。	-
包月（预付费）	模型单元	部分可部署模型	自助扩缩容	天	单位时长更便宜。支持设置自动续费。	退订规则更复杂。
按模型使用量（后付费）	Token 用量	部分可部署模型	在控制台提交申请，等待人工审核。	Token	不使用不计费。	只支持部分高效训练后获得的自定义模型。一个月内不使用将自动释放。

您可以查看模型部署的详细计费规则。具体到单次调用 Token 使用量、调用次数历史统计可以前往：模型观测。

计费详情

通义千问模型-按模型单元（时间）计费

基于时间的计费方式都支持手动扩缩容，灵活调整并发量。

按模型单元的资源占用时长计费的计费粒度更小（分钟），使用灵活。
模型单元资源包月计费的计费周期长（月），但更加便宜（6.7折）。
退订细节请参考非全额退订。

说明

模型单元是百炼平台提供的算力部署最小单位，按照使用时长收取资源费用。

计费方式

计费公式

按资源占用时长（后付费）

费用 = 使用时长（小时）× 模型单元数量 × 模型单元单价（不满1分钟按1分钟计费）

部署前可以在模型部署控制台查看不同模型的预估每小时费用。

资源包月（预付费）

费用 = 购买时长（月）× 模型单元数量 × 模型单元包月单价（不满1天按1天计费）

如果在开始使用的一个月内提前退订，日单价将为 1.2 倍，退订细节请参考非全额退订。

通义千问

模型服务	单价	单价（预付费）
通义千问-Turbo-0624	96元/小时	46,000元/月
通义千问2.5-开源版-14B
通义千问2.5-开源版-7B
通义千问2-开源版-7B
通义千问3-14B
通义千问3-8B
通义千问-Plus-0723	192元/小时	92,000元/月
通义千问2.5-开源版-72B
通义千问2.5-开源版-32B
通义千问2-开源版-72B
通义千问3-32B

通义千问VL

模型服务	单价	单价（预付费）
通义千问VL-Plus	40元/小时	20,000元/月
通义千问3-VL-8B-Instruct	96元/小时	46,000元/月
通义千问3-VL-8B-Thinking
通义千问2.5-VL-7B
通义千问VL-Max-0201	160元/小时	80,000元/月
通义千问2.5-VL-32B	192元/小时	92,000元/月
通义千问2.5-VL-72B	192元/小时	92,000元/月

通义千问模型-按实例（时间）计费（旧）

说明

自 2025年 10月 24 日起，按实例计费方式不再支持新购。

计费方式

计费公式

按实例资源占用时长计费

费用 = 资源占用时长（小时）× 实例数量 × 实例单价（不满1小时按1小时计费）

部署前可以在模型部署控制台查看不同模型的预估每小时费用。

资源包月计费/预付费

费用 = 购买时长（月）× 实例数量 × 模型对应的实例单价

购买资源：请前往模型部署控制台（点击右上角的资源池管理）购买。（资源购买完成后便开始计费）

退订资源：请前往主账号的退订管理退订。退订后，将根据未用时长退回未使用金额。（不满1天按1天计费）

通义千问

模型服务	模型类型	独占实例资源规格	实例单价	实例单价（预付费）
通义千问-Turbo-0624	微调模型	基础版v2-Qwen2	40元/实例/小时	20,000元/月
通义千问2.5-开源版-14B
通义千问2.5-开源版-7B
通义千问2-开源版-7B
通义千问1.5-开源版-14B		基础版
通义千问1.5-开源版-7B
通义千问3-14B		NA		无法预付费
通义千问3-8B
通义千问-Plus-0723		标准版v2-Qwen2	160元/实例/小时	80,000元/月
通义千问2.5-开源版-72B
通义千问2.5-开源版-32B
通义千问2-开源版-72B
通义千问1.5-开源版-72B		标准版
通义千问3-32B		NA		无法预付费

通义千问VL

模型服务	模型类型	独占实例资源规格	算力单元单价	单价（预付费）
通义千问VL-Plus	微调模型	基础版	40元/实例/小时	20,000元/月
通义千问VL-Max-0201		标准版	160元/实例/小时	80,000元/月

通义千问2.5-VL-7B		NA	40元/实例/小时	无法预付费
通义千问2.5-VL-32B			160元/实例/小时
通义千问2.5-VL-72B			160元/实例/小时

通义千问模型-按模型 Token 调用量计费

按模型调用量计费方式价格很低。而如果需要进一步增加并发量，需要部署后在模型部署控制台手动申请，平台会进行人工审批。

重要

一个模型是可以在百炼的模型调优中进行重复训练的。

只有在基于以下基础模型，且只进行一次“SFT高效训练”后获得的自定义模型，才支持按调用量计费。

计费方式	按模型调用量
计费公式	费用 = 模型输入 Token 数 × 模型输入单价 + 模型输出 Token 数 × 模型输出单价（最小计费单位：1 token）

基础模型	输入单价	输出单价
通义千问3-32B	0.002元/千Token	非思考模式：0.008元/千Token 思考模式：0.02元/千Token
通义千问3-14B	0.001元/千Token	非思考模式：0.004元/千Token 思考模式：0.01元/千Token
通义千问3-8B	0.0005元/千Token	非思考模式：0.002元/千Token 思考模式：0.005元/千Token
通义千问 2.5-72B	0.004元/千Token	0.012元/千Token
通义千问 2.5-32B	0.002元/千Token	0.006元/千Token
通义千问 2.5-14B	0.001元/千Token	0.003元/千Token
通义千问 2.5-7B	0.0005元/千Token	0.001元/千Token
通义千问2.5-VL-72B	0.016元/千Tokens	0.048元/千Tokens
通义千问2.5-VL-32B	0.008元/千Tokens	0.024元/千Tokens
通义千问2.5-VL-7B	0.002元/千Tokens	0.005元/千Tokens
通义千问 2-开源版-7B	0.001元/千Token	0.002元/千Token

图片、视频生成模型（预置）-按实例（时间）计费

计费方式

计费公式

按实例资源占用时长计费

费用 = 资源占用时长（小时）× 实例数量 × 实例单价（不满1小时按1小时计费）

部署前可以在模型部署控制台查看不同模型的预估每小时费用。

实例包月计费/预付费

费用 = 购买时长（月）× 实例数量 × 模型对应的实例单价

购买资源：请前往模型部署控制台（点击右上角的资源池管理）购买。（资源购买完成后便开始计费）

退订资源：请前往主账号的退订管理退订。退订后，将根据未用时长退回未使用金额。（不满1天按1天计费）

图片生成

模型服务

模型类型

独占实例资源规格

实例单价

（预付费）

通义万相-文本生成图像-0521

预置模型

轻量版

20元/实例/小时

10,000元/月

视频生成

模型服务	模型类型	独占实例资源规格	实例单价	实例单价（预付费）
悦动人像EMO-detect	预置模型	轻量版	20元/实例/小时	10,000元/月
悦动人像EMO
舞动人像AnimateAnyone-detect
舞动人像AnimateAnyone

调用统计

您可以在模型观测页面查看已部署的模型的调用统计数据。

部署方法

您可以在控制台上部署模型，请参考以下操作步骤：

如果希望使用 API 部署模型请前往：使用 API 进行模型部署。

前往模型部署，点击部署新模型。

选择模型、计费方式，设置模型名称并开始部署。

重要

开始部署后，模型部署服务将产生费用。

部署状态为运行中时，代表该模型已部署成功。

部署后调用

模型部署成功后，支持通过 OpenAI 兼容、DashScope、LlamaIndex、LangChain及Assistant SDK进行调用。

在调用已部署成功的模型时，model的取值应为模型部署成功后的模型code。请您前往模型部署界面获取模型code。

示例代码以调用微调后的 qwen3-8b 模型为例：

DashScope

import os
import dashscope

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "你是谁？"},
]

response = dashscope.Generation.call(
    # 若没有配置环境变量，请用百炼API Key将下行替换为：api_key="sk-xxx",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    model="qwen3-8b-ft-xxx-xxx",  # 请替换为模型部署成功后的code
    messages=messages,
    result_format="message"
)
print(response)

OpenAI兼容接口

import os
from openai import OpenAI


client = OpenAI(
    # 若没有配置环境变量，请用百炼API Key将下行替换为：api_key="sk-xxx",
    api_key=os.getenv('DASHSCOPE_API_KEY'),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3-8b-ft-xxx-xxx",# 请替换为模型部署成功后的code
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "你是谁？"},
    ]
)
print(completion)

模型特性（是否支持非流式输出、结构化输出等）与微调前的模型保持一致。

部署服务扩缩容

按模型单元（时长）计费方式部署的模型可点击红框的扩缩容，自助、手动调节实例数量。

按调用量计费方式部署的模型点击黄框的扩容，填写并提交扩容申请表单，等待人工审核。

部署服务下线

如果不再需要模型部署服务，需要停止服务计费，请您按照此操作下线部署服务，下线后将不再产生计费：

前往模型部署，找到要下线的部署服务，点击下线并确认。

常见问题

可以上传和部署自己的模型吗？

暂不支持上传和部署自有模型，建议您持续关注阿里云百炼最新动态。此外，阿里云人工智能平台 PAI 提供了部署自有模型的功能，您可以参考PAI模型部署与推理了解部署方法。

该如何切换到其他的计费方式？

只能释放原有资源，并重新使用需要的方式创建资源。

建议按照以下步骤进行切换：

使用需要的方式部署新的资源。
切换 API 并测试服务可用性。
下线释放原有资源。