模型部署简介

调优后的模型需要经过部署才能提供推理服务。模型部署后,将提供高并发、低延迟的推理服务。

image

支持的模型

模型类别

支持的模型

为什么选择模型部署

预置模型

(阿里云百炼支持的标准模型)

image

获得高并发量、高推理性能(低延迟)的推理服务。

自定义模型

(阿里云百炼平台调优后的模型)

模型调优支持的模型

部署后,模型才能用于推理或评测

获得高并发量、高推理性能(低延迟)的推理服务。

如果需要部署更多其他模型,请参考解决方案并结合具体业务需求选择最适合的部署方案。

支持的计费方式

计费方式

支持的模型

是否支持自助扩缩容

(即最大并发量可动态调节)

计费最小单位

优点

缺点

包时(后付费)

所有可部署模型

支持

小时

-

-

包月(预付费)

所有可部署模型

支持

  1. 比“包时”计费便宜。

-

按调用量(后付费)

只支持部分基于通义千问 2、通义2.5的自定义模型

不支持

提高最大并发量需要在控制台提交申请,并等待阿里云百炼平台的人工审核。

token

  1. 不使用不计费。

  2. 不使用一个月后自动释放。

  1. 支持的模型种类少。

重要

选择包时(后付费)时,即使不调用模型,部署服务仍将持续运行并产生费用。如您不再需要,请立即下线部署服务,以免产生预期之外的费用。

您可以查看模型部署的详细计费规则。具体到单次调用 token 使用量、调用次数历史统计可以前往:阿里云百炼控制台-模型观测

模型部署后性能参考

(由于 QPM 受调用的 token 长度影响较大,仅供参考)

模型名称

每实例参考处理能力

qwen-plus

70 QPM

计费详情

按时间计费

按时间计费方式都支持手动扩缩容,灵活调整并发量。

  • 按使用时长计费的计费粒度更小(小时),使用灵活。

  • 包月计费的计费周期长(天),但更加便宜(7折)。

计费方式

计费公式

按使用时长计费

费用 = 使用时长(小时)× 实例数量 × 模型对应的实例单价(不满1小时按1小时计费)

部署前可以在模型部署控制台查看不同模型的预估每小时费用。

包月计费/预付费

费用 = 购买时长(月)× 实例数量 × 模型对应的实例单价

购买资源:请前往模型部署控制台(点击右上角的资源池管理)购买。(资源购买完成后便开始计费)

退订资源:请前往主账号的退订管理退订。退订后,将根据未用时长退回未使用金额。(不满1天按1天计费)

通义千问

模型服务

模型类型

独占实例资源规格

实例单价

实例单价

(预付费)

通义千问-Turbo-0624

微调模型

基础版

40元/实例/小时

20,000元/月

通义千问2.5-开源版-14B

微调模型

通义千问2.5-开源版-7B

微调模型

通义千问1.5-开源版-14B

微调模型

通义千问1.5-开源版-7B

微调模型

通义千问2-开源版-7B

微调模型

基础版v2-Qwen2

40元/实例/小时

20,000元/月

通义千问-Plus-0723

微调模型

标准版

160元/实例/小时

80,000元/月

通义千问2.5-开源版-72B

微调模型

通义千问2.5-开源版-32B

微调模型

通义千问1.5-开源版-72B

微调模型

通义千问2-开源版-72B

微调模型

标准版v2-Qwen2

160元/实例/小时

80,000元/月

通义千问VL

模型服务

模型类型

独占实例资源规格

实例单价

实例单价

(预付费)

通义千问VL-Plus

微调模型

基础版

40元/实例/小时

20,000元/月

通义千问VL-Max-0201

微调模型

标准版

160元/实例/小时

80,000元/月

图像生成

模型服务

模型类型

独占实例资源规格

实例单价

实例单价

(预付费)

悦动人像EMO-detect-deployment

预置模型

轻量版

20元/实例/小时

10,000元/月

悦动人像EMO-deployment

预置模型

舞动人像AnimateAnyone-detect

预置模型

舞动人像AnimateAnyone

预置模型

通义万相-文本生成图像-0521

预置模型

模型部署后性能参考

(由于 QPM 受调用的 Token 长度影响较大,仅供参考)

模型名称

每实例参考处理能力

qwen-plus

70 QPM

按模型调用量计费

按模型调用量计费方式价格很低。而如果需要进一步增加并发量,需要部署后在模型部署控制台手动申请,平台会进行人工审批。

计费方式

按模型调用量

image

计费公式

费用 = 模型输入 Token 数 × 模型输入单价 + 模型输出 Token 数 × 模型输出单价(最小计费单位:1 token)

重要

一个模型是可以在百炼的模型调优中进行重复训练的。

只有在基于以下基础模型,且只进行一次“SFT高效训练”后获得的自定义模型,才支持按调用量计费。

基础模型

输入单价

输出单价

通义千问3-32B

0.002元/千Token

非思考模式:0.008元/千Token

思考模式:0.02元/千Token

通义千问3-14B

0.001元/千Token

非思考模式:0.004元/千Token

思考模式:0.01元/千Token

通义千问3-8B

0.0005元/千Token

非思考模式:0.002元/千Token

思考模式:0.005元/千Token

通义千问 2.5-72B

0.004元/千Token

0.012元/千Token

通义千问 2.5-32B

0.0035元/千Token

0.007元/千Token

通义千问 2.5-14B

0.002元/千Token

0.006元/千Token

通义千问 2.5-7B

0.001元/千Token

0.002元/千Token

通义千问 2-开源版-7B

0.001元/千Token

0.002元/千Token

调用统计

您可以在百炼控制台-模型观测页面查看已部署的模型的调用统计数据。

image

部署方法

您可以在控制台上部署模型,请参考以下操作步骤:

如果希望使用 API 部署模型请前往:使用 API 进行模型部署
  1. 前往模型部署,点击部署新模型

image

  1. 选择模型、计费方式,设置模型名称并开始部署。

重要

开始部署后,模型部署服务将产生费用。

  1. 部署状态为运行中时,代表该模型已部署成功。

部署后调用

模型部署成功后,支持通过DashScopeLlamaIndexLangChainAssistant SDK进行调用,不支持 OpenAI 兼容调用。

在调用已部署成功的模型时,model的取值应为模型部署成功后的模型code。请您前往模型部署界面获取模型code。

image

import os
import dashscope

messages = [
    {'role': 'system', 'content': 'You are a helpful assistant.'},
    {'role': 'user', 'content': '你是谁?'}
]
response = dashscope.Generation.call(
    # 若没有配置环境变量,请用百炼API Key将下行替换为:api_key="sk-xxx",
    api_key=os.getenv('DASHSCOPE_API_KEY'),
    model="qwen2.5-7b-instruct-ft-202502271145-xxx",  # 请替换为模型部署成功后的code
    messages=messages,
    result_format='message'
)
print(response)

部署服务扩缩容

按时间计费方式部署的模型可点击黄框的扩缩容,自助、手动调节实例数量。

按调用量计费方式部署的模型点击红框的扩容申请,填写并提交扩容申请表单,等待人工审核。image

部署服务下线

如果不再需要模型部署服务,需要停止服务计费,请您按照此操作下线部署服务,下线后将不再产生计费:

  1. 前往模型部署,找到要下线的部署服务,点击下线并确认。

image

  1. 部署状态显示“下线中”时,请耐心等待。直到该服务消失后,下线操作全部完成。

image

常见问题

可以上传和部署自己的模型吗?

暂不支持上传和部署自有模型,建议您持续关注阿里云百炼最新动态。此外,阿里云人工智能平台 PAI 提供了部署自有模型的功能,您可以参考PAI模型部署与推理了解部署方法。