大模型如何进行部署_大模型服务平台百炼(Model Studio)-阿里云帮助中心

调优后的模型需要经过部署才能提供推理服务。模型部署后，将提供高并发、低延迟的推理服务。

支持的模型

模型类别	支持的模型	为什么选择模型部署

模型类别

支持的模型

为什么选择模型部署

预置模型

（百炼支持的标准模型）

获得高并发量、高推理性能（低延迟）的推理服务。

自定义模型

（百炼平台调优后的模型）

模型调优支持的模型

部署后，模型才能用于推理或评测。

获得高并发量、高推理性能（低延迟）的推理服务。

自定义模型部署成功后可以像百炼的其他预置模型一样通过设置model在 API 中调用。（支持 DashScope、LlamaIndex、LangChain、Assistant SDK，不支持 OpenAI 兼容）

在控制台部署模型

如果希望使用 API 部署模型请前往：快速开始。

前往模型部署，点击部署新模型。
选择模型、计费方式，设置模型名称并开始部署。
部署状态为运行中时，代表该模型可以进行推理并开始计费。
使用 DashScope API 调用模型，这里需要传入模型部署成功后的模型`code`作为模型名称。	`import os import dashscope messages = [ {'role': 'system', 'content': 'You are a helpful assistant.'}, {'role': 'user', 'content': '你是谁？'} ] response = dashscope.Generation.call( # 若没有配置环境变量，请用百炼API Key将下行替换为：api_key="sk-xxx", api_key=os.getenv('DASHSCOPE_API_KEY'), model="qwen-plus-d824b8ad<请替换为模型部署成功后的code作为模型名称>", messages=messages, result_format='message' ) print(response)` （支持 DashScope、LlamaIndex、LangChain、Assistant SDK，不支持 OpenAI 兼容）说明模型部署成功后的模型`code`，请参见模型部署界面。

模型扩缩容详情

按时间计费方式部署的模型可点击黄框的扩缩容，自助、手动调节实例数量。

按调用量计费方式部署的模型点击红框的扩容申请，填写并提交扩容申请表单，等待人工审核。

计费方式优缺点对比

计费方式	支持的模型	是否支持自助扩缩容（即最大并发量可动态调节）	计费最小单位	优点	缺点

计费方式	支持的模型	是否支持自助扩缩容（即最大并发量可动态调节）	计费最小单位	优点	缺点
包时（后付费）	所有可部署模型	支持	小时	-	-
包月（预付费）	所有可部署模型	支持	天	比“包时”计费便宜。	-
按调用量（后付费）	只支持部分基于通义千问 2、通义2.5的自定义模型	不支持提高最大并发量需要在控制台提交申请，并等待百炼平台的人工审核。	token	不使用不计费。不使用一个月后自动释放。	支持的模型种类少。

具体到单次调用 token 使用量、调用次数历史统计可以前往：百炼控制台-模型观测。

模型部署后性能参考

（由于 QPM 受调用的 token 长度影响较大，仅供参考）

模型名称	每实例参考处理能力

模型名称	每实例参考处理能力
qwen-plus	70 QPM

计费详情

按时间计费

按时间计费方式都支持手动扩缩容，灵活调整并发量。

按使用时长计费的计费粒度更小（小时），使用灵活。
包月计费的计费周期长（天），但更加便宜（7折）。

计费方式

计费公式

按使用时长计费

费用 = 使用时长（小时）× 实例数量 × 模型对应的实例单价（不满1小时按1小时计费）

部署前可以在模型部署控制台查看不同模型的预估每小时费用。

包月计费/预付费

费用 = 购买时长（月）× 实例数量 × 模型对应的实例单价

购买资源：请前往模型部署控制台（点击右上角的资源池管理）购买。（资源购买完成后便开始计费）

退订资源：请前往主账号的退订管理退订。退订后，将根据未用时长退回未使用金额。（不满1天按1天计费）

通义千问

通义千问VL

图像生成

模型服务	独占实例资源规格	实例单价	实例单价（预付费）
通义千问-Turbo	基础版	40元/实例/小时	20,000元/月
通义千问-Turbo-0624
通义千问2.5-开源版-14B
通义千问1.5-开源版-14B
通义千问-开源版-14B
通义千问2.5-开源版-7B
通义千问-开源版-7B
通义千问1.5-开源版-7B
通义千问2-开源版-7B	基础版v2-Qwen2	40元/实例/小时	20,000元/月

通义千问-Plus	标准版	160元/实例/小时	80,000元/月
通义千问-Plus-0723
通义千问1.5-开源版-110B
通义千问2.5-开源版-72B
通义千问1.5-开源版-72B
通义千问-开源版-72B
通义千问2.5-开源版-32B
通义千问2-开源版-72B	标准版v2-Qwen2	160元/实例/小时	80,000元/月

模型服务

独占实例资源规格

实例单价

（预付费）

基于通义千问VL-Plus训练出来的模型

基础版

40元/实例/小时

20,000元/月

基于通义千问VL-Max-0201训练出来的模型

标准版

160元/实例/小时

80,000元/月

模型服务	独占实例资源规格	实例单价	实例单价（预付费）
悦动人像EMO-detect-deployment	轻量版	20元/实例/小时	10,000元/月
悦动人像EMO-deployment
舞动人像AnimateAnyone-detect
舞动人像AnimateAnyone
通义万相-文本生成图像-0521

模型部署后性能参考

（由于 QPM 受调用的 Token 长度影响较大，仅供参考）

模型名称	每实例参考处理能力
qwen-plus	70 QPM

按模型调用量计费

按模型调用量计费方式价格很低。而如果需要进一步增加并发量，需要部署后在模型部署控制台手动申请，平台会进行人工审批。

计费方式	按模型调用量
计费公式	费用 = 模型输入 Token 数 × 模型输入单价 + 模型输出 Token 数 × 模型输出单价（最小计费单位：1 token）

重要

一个模型是可以在百炼的模型调优中进行重复训练的。

只有在基于以下基础模型，且只进行一次“SFT高效训练”后获得的自定义模型，才支持按调用量计费。

基础模型	输入单价	输出单价
通义千问 2.5-开源版-72B	0.004元/千Token	0.012元/千Token
通义千问 2.5-开源版-32B	0.0035元/千Token	0.007元/千Token
通义千问 2.5-开源版-14B	0.002元/千Token	0.006元/千Token
通义千问 2.5-开源版-7B	0.001元/千Token	0.002元/千Token
通义千问 2-开源版-7B	0.001元/千Token	0.002元/千Token

调用统计

您可以在百炼控制台-模型观测页面查看已部署的模型的调用统计数据。

常见问题

可以上传和部署自己的模型吗？

暂不支持上传和部署自有模型，建议您持续关注百炼最新动态。此外，阿里云人工智能平台 PAI 提供了部署自有模型的功能，您可以参考PAI模型部署与推理了解部署方法。