预置吞吐单元(PTU)计费模式

预置吞吐单元(Provisioned Throughput Unit, PTU)是阿里云百炼的一种模型部署计费方式,支持按需配置TPM(Tokens per Minute),能够使模型满足预期的吞吐需求,适用于需要持续稳定吞吐能力的业务场景。

重要

目前预置吞吐单元计费模式属于邀测阶段,请您先联系销售经理进行申请。

预置吞吐单元概述

PTU定义

PTU是用于描述模型部署中模型吞吐容量的单位,它具有以下特性:

  • 稳定吞吐:针对特定版本的模型,能够使模型达到预期且稳定的吞吐量。

  • 低延时:相比Tokens 调用量计费,在首包时延和生成速率上更优,且有稳定保障。

  • 高并发:针对特定版本的模型,提供比默认限额更大的并发数。

每个PTU可以换算成模型每分钟需要输入和输出的Token总数(TPM),您仅需评估模型所需的TPM,再根据换算比例来决定PTU的购买数量。

  • 购买逻辑:可以使用模型部署页面的计算器进行估算

    • 统计模型每分钟的TPM:每分钟输入Token数 + 每分钟输出Token

    • 计算PTU的推荐数量 : TPM / 该模型每PTU对应的TPM

    • 处理计算结果:结果PTU的最小购买单位向上取整

    吞吐单元推荐数量仅供参考,建议部署后使用真实流量负载进行压测获取更准确的结果。
  • 计费方式:PTU的数量和使用时长收费

  • 计费公式:费用 = 使用时长(分钟)× PTU数量 × PTU单价最小计费单位:分钟

  • 支付方式:

    • 按小时后付费:以 PTU 计费方式完成模型部署后,无论是否进行模型推理,都将按小时出账(不满一分钟按一分钟计算),按月扣费。如需关闭计费,请下线部署服务

    • 按月预付费:您可以购买预置吞吐单元容量包,通过承诺月度使用时长来降低费用。预置吞吐单元容量包购买成功后立即生效,且不支持退订。建议您先创建PTU部署服务后再购买容量包,以免先买容量包后创建PTU失败而产生成本浪费。

    创建购买时有可能会受资源容量限制,如购买不成功建议重试或联系销售经理。

支持的模型

PTU计费模式目前仅支持部署以下5种预置模型,每个模型 PTU 的最小购买单位、每PTU所对应的 TPM 或 QPM 都不同。

支持的模型

PTU对应的TPM

(每分钟消耗Token数)

每 PTU对应的QPM

(每分钟调用次数)

PTU的最小购买单位

qwen-turbo-2025-04-28

60,000

60

4

qwen-plus-2025-04-28

25,000

25

8

qwen-max-2025-01-25

10,000

10

16

qwen-vl-plus-2025-05-07

16,000

8

4

qwen-vl-max-2025-04-08

4,000

4

8

如模型实际的TPM超过了部署时购买的PTU所能承载的TPM值时会报限流错误(错误代码:429),建议您等待重试或进行PTU的扩容

计费模式对比

PTU 和按 Tokens 调用量计费都属于模型部署时的计费方式,但适用场景不同。

PTU

Token调用量

适用场景

高并发,低延迟,稳定吞吐,流量可预估的业务场景

付费灵活,用于快速验证调优效果、性能有保障的业务场景

计费方式

PTU的使用时长收费

按不同类型的Token用量收费

计费公式

费用 = 使用时长(小时)× PTU数量 × PTU单价

最小计费单位:1分钟

费用 = 模型输入 Token 数 × 输入单价 + 模型输出 Token 数 × 输出单价

最小计费单位:1 token

支付方式

  • 按小时后付费

  • 按月预付费(需先购买预置吞吐单元容量包)

按量后付费

支持模型

部分预置模型

部分微调模型

部署流程

以下是通过阿里云百炼控制台以PTU模式进行部署的流程。目前,PTU 模式不支持通过 API 部署。

  • 前往模型部署,点击部署新模型

  • 选择预置模型、选择预置吞吐单元计费方式,设置模型名称并开始部署。

  • 部署状态为运行中时,代表该模型可以进行推理并开始计费。

部署后调用

模型部署成功后,支持通过 DashScope、 OpenAI 兼容使用大模型LangChain Assistant SDK 进行调用。

调用部署成功后的模型,model的取值应为模型部署成功后的模型 code 。请您前往模型部署界面获取模型 code 。

image

OpenAI 兼容

import os
from openai import OpenAI

client = OpenAI(
        # 若没有配置环境变量,请用百炼API Key将下行替换为:api_key="sk-xxx",
        api_key=os.getenv("DASHSCOPE_API_KEY"),
        base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
    )

completion = client.chat.completions.create(
        model="qwen-plus-d824b8ad<请替换为模型部署成功后的code作为模型名称>",
        messages=[
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "你是谁?"},
        ],
          # Qwen3模型通过enable_thinking参数控制思考过程(开源版默认True,商业版默认False)
         # 使用Qwen3开源版模型时,若未启用流式输出,请将下行取消注释,否则会报错
         # extra_body={"enable_thinking": False}
    ) 

print(completion.choices[0].message.content)

DashScope

import os
import dashscope

messages = [
    {'role': 'system', 'content': 'You are a helpful assistant.'},
    {'role': 'user', 'content': '你是谁?'}
]

response = dashscope.Generation.call(
    # 若没有配置环境变量,请用百炼API Key将下行替换为:api_key="sk-xxx",
    api_key=os.getenv('DASHSCOPE_API_KEY'),
    model="qwen-plus-d824b8ad<请替换为模型部署成功后的code作为模型名称>",
    messages=messages,
    result_format='message'
)
print(response)

模型扩缩容

按 PTU 方式部署的模型支持进行扩缩容,您可以根据您的模型所需的吞吐量调整 PTU 的数量。

image

部署服务下线

如果不再需要模型部署服务,需要停止服务计费,请您按照此操作下线部署服务,下线后将不再产生计费:

  • 前往模型部署,找到要下线的部署服务,点击下线并确认。

    image

  • 部署状态显示“下线中”时,请耐心等待。直到该服务消失后,下线操作全部完成。

调用统计

PTU创建成功后,您可在模型观测页面查看 PTU 利用率的变化。

PTU 部署利用率 = 时间段内消耗的吞吐单元数量 / 时间段内部署的吞吐单元数量

image

常见问题

PTU模式是如何进行付费?

使用时发生余额不足、欠费等情况请直接前往费用与成本页面充值需要的金额。或者请购买预置吞吐单元容量包进行预付费,容量包一旦购买成功后立即生效且不支持退订。

PTU模式是如何关闭付费?

如果不再需要模型部署服务,需要停止服务计费,请您按照将部署服务下线,下线后将不再产生计费。

您也可以设置高额消费预警,将预警阈值设置为一个较低值,阿里云将在产生意外扣费时通知您,避免您产生更多损失。

如果有预置吞吐单元容量包,部署产生的费用如何扣费?

预置吞吐单元容量包购买成功后立即生效,会自动匹配符合条件的部署服务抵扣其小时费用;阿里云扣费顺序请参见阿里云后付费账单扣款顺序

如何处理部署时的报错“模型部署预置吞吐单元数超过额度”

原因:阿里云百炼平台会对邀测账号分配一定额度的PTU,若您在阿里云平台部署模型时,出现错误码 10110423,信息为“模型部署预置吞吐单元(PTU)超过额度”的报错,表示当前账号的PTU资源额度已耗尽,或剩余的额度不足以支持本次部署。

解决方案:您可以联系销售经理,申请调整PTU的额度。