TPM 预留

更新时间:
复制 MD 格式

TPM 预留为指定模型锁定专属推理容量,确保业务高峰期不受公共限流影响。本文介绍如何创建、接入和管理 TPM 预留。

功能概述

通过 TPM(Tokens Per Minute)预留,您可以为指定模型锁定专属的推理吞吐量,预留容量内的调用不受公共资源限流影响。

  • 容量保障:预留的 TPM 容量为您的业务专属,不与其他用户共享。

  • 专属模型 code:创建 TPM 预留后,系统自动生成专属模型 code,您需要将 API 请求中的 model 参数替换为该 code。

  • 超额不中断:超出预留容量的请求自动降级为按量计费处理,无需修改代码。

方案对比与选型

百炼为推理调用提供多种容量与计费方案,常见包括按量付费、资源包与节省计划、TPM 预留、PTU 专属部署。不同方案在计费单位、容量保障强度、超额处理方式与接入改动上各有侧重,本节帮助您根据业务诉求选择合适的方案。

方案

计费单位

容量保障

适用场景

超额处理

代码改动

按量付费

按 token

无(共享公共池)

流量波动大/短期

自动服务,受公共限流

无需改动

资源包/节省计划

预付费额度

承诺用量折扣(非专属容量)

费用优化

超出转按量

无需改动

TPM 预留

按 kTPM 预付费

专属容量刚性兑付

流量可预估、不能接受限流

超出自动降级公共池按量,不中断

替换 model 参数即可

PTU(模型部署

按 kTPM 预付费

专属部署实例

高吞吐高性能

超出转按量

替换 model 参数即可

支持的模型

华北2(北京)

模型名称

预付费-按天

输入(Per 1000 TPM)

输出(Per 1,000 TPM)

qwen3.6-plus-2026-04-02

¥2.02

¥12.10

qwen3.6-flash-2026-04-16

¥1.21

¥7.26

qwen3.5-plus-2026-04-20

¥0.81

¥4.84

qwen3.7-max-2026-05-20

¥12.10

¥36.29

qwen3.7-plus-2026-05-26

¥2.02

¥8.06

glm-5.1

¥6.05

¥24.19

kimi-k2.6

¥6.55

¥27.22

deepseek-v4-flash

¥1.01

¥2.02

deepseek-v4-pro

¥12.10

¥24.19

glm-5.2

¥8.06

¥28.22

新加坡

模型名称

预付费-按天

输入(Per 1000 TPM)

输出(Per 1,000 TPM)

qwen3.6-plus-2026-04-02

¥3.78

¥22.66

qwen3.6-flash-2026-04-16

¥1.89

¥11.33

qwen3.5-plus-2026-04-20

¥3.02

¥18.13

qwen3.7-max-2026-05-20

¥18.89

¥56.66

qwen3.7-plus-2026-05-26

¥3.02

¥12.09

glm-5.1

¥10.58

¥33.24

deepseek-v4-flash

¥1.51

¥3.02

deepseek-v4-pro

¥18.13

¥36.26

计费与使用说明

  • 部署成功即开始计费,预留容量内的调用不额外收费。

  • 预付费一次性支付,从购买成功起连续生效。详细费用以百炼控制台为准。

  • 缩容与退订退费:已使用部分按 1.5 倍系数结算,直接引用公式:

    退款 = 降量部分预付费 - (降量部分预付费 × 已用时长/购买时长 × 1.5)

  • 超出保障额度后自动降级为标准按量计费,服务不中断。可在详情页超额降级统计中查看降级次数。

  • 服务到期后 2 小时内:实例仍为运行中,可继续调用,可续费;到期后 2~14 小时:实例已停止,不可调用,仍可续费;到期 14 小时后:实例已删除,不可恢复。

点击此处查看各模型容量换算参数

部分模型支持长输入阶梯系数和缓存折扣,容量计算器会自动应用这些参数。具体如下:

模型

输入长度上限

缓存折扣

长输入阶梯系数

glm-5.1

200K

0.2(缓存命中部分按 20% 折算容量)

[0, 32K):输入 1.0 / 输出 1.0
[32K, 200K]:输入 1.33 / 输出 1.17

deepseek-v4-pro

256K

0.08(缓存命中部分按 8% 折算容量)

无阶梯(1.0)

Qwen 系列

256K

0.2(缓存命中部分按 20% 折算容量)

无阶梯(1.0)

创建 TPM 预留

前提条件:已开通百炼模型服务,已创建业务空间。登录百炼控制台,单击创建 TPM 预留

image

重要

创建 TPM 预留需一次性支付预付费用。建议先使用容量计算器估算所需 TPM,确认费用后再提交。

  1. 填写以下参数:

    参数

    说明

    必填

    取值说明

    预留名称

    自定义名称,便于识别。

    ≤ 50 个字符

    选择模型

    选择需要预留容量的模型。提交后自动生成专属模型 code。

    仅支持已开放 TPM 预留的模型,以控制台展示为准。

    付费周期

    计费周期。

    按天

    输入 TPM

    预留的输入吞吐量,单位 kTPM(1 kTPM = 1,000 Tokens/分钟)。

    起步和步长因模型而异,以控制台展示为准。

    输出 TPM

    预留的输出吞吐量,单位 kTPM。

    起步和步长因模型而异,以控制台展示为准。

    购买时长

    预留的有效时长。

    支持多种选择。

    到期自动续费

    到期前一天 08:00 自动扣款续费。默认开启。

    开启 / 关闭

    单次续费时长

    每次自动续费的时长。

    与购买时长取值一致。

  2. 确认参数后单击立即购买,在费用确认弹窗中核对费用,单击确认支付

  3. 在 TPM 预留详情页的概览 Tab,找到专属模型 code,单击复制。

  4. 将 API 请求中的 model 参数替换为复制的专属模型 code:

    前提条件:已创建 TPM 预留实例且状态为运行中
    # 短时间内请求量快速拉升时,系统需要短暂预热以匹配所需算力
    # 预热期间部分请求可能出现延迟波动,预热完成后恢复稳定。
    # 请做好请求排队或重试机制。
    
    import dashscope
    
    response = dashscope.Generation.call(
        api_key="your-api-key",
        model="your-dedicated-model-code",   # 替换为专属模型 code
        messages=[{"role": "user", "content": "你好"}],
    )
    print(response.output.text)
    # 短时间内请求量快速拉升时,系统需要短暂预热以匹配所需算力
    # 预热期间部分请求可能出现延迟波动,预热完成后恢复稳定。
    # 请做好请求排队或重试机制。
    curl -X POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
      -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
      -H "Content-Type: application/json" \
      -d '{"model":"your-dedicated-model-code","messages":[{"role":"user","content":"你好"}]}'

容量计算器

创建页面右侧提供容量计算器,帮助您根据业务负载估算需要购买的 TPM 额度。填写以下参数后,计算器自动输出推荐的输入 TPM 和输出 TPM。

参数

说明

对结果的影响

每分钟请求数(RPM)

业务高峰期每分钟发送的请求数。

RPM 越大,建议购买的输入和输出 TPM 同比增大。

平均输入长度(token)

每条请求的平均输入 token 数。

输入越长,所处阶梯越高,系数越大,建议购买的输入 TPM 越高。不同模型的阶梯边界不同,以控制台实际展示为准。

平均输出长度(token)

每条请求的平均输出 token 数。

输出越长,系数可能越大,建议购买的输出 TPM 越高。

预估缓存命中率(%)

请求中重复前缀被缓存命中的比例。实际命中率取决于请求内容的重复程度,以运行结果为准。

命中率越高,输入容量消耗越慢,建议购买的输入 TPM 越低。仅影响输入 TPM,不影响输出 TPM。

image

查看与管理

前往百炼控制台,在预留列表页。列表以模型卡片形式展示所有预留实例,支持按模型、时间、状态筛选。

image

预留详情

单击目标模型卡片进入详情页,包含以下 3 个 Tab:

概览

image

  • 基本信息:预留名称、专属模型 code(可复制)、基座模型、输入/输出容量。

  • 统计卡片(近 7 天):生效预留数、TPM 总量与峰值用量、平均利用率。

  • TPM 用量趋势图:可切换输入/输出方向,展示预留容量线和实际用量。

  • 超额降级统计:展示超出预留容量后被降级处理的次数。

监控

提供详细的运行监控数据:利用率、配额用量(输入/输出)、配额内/外调用次数、缓存命中量。更多详细信息请参考:模型监控

image

API 接入

展示专属模型 code 和调用示例。

image

管理操作

在详情页概览 Tab 的预留列表中,找到目标实例,通过操作列执行以下操作:

扩缩容

image

单击扩缩容,在弹窗中调整输入 TPM 和输出 TPM。

续费

单击续订,选择续费时长并完成支付。如已开启到期自动续费,系统在到期前一天 08:00 自动扣款续费。

退订

单击退订,系统跳转至费用中心完成退订流程。

重要

退订不可恢复。退订后专属模型 code 失效,已有请求将回退至公共资源处理。

预留实例状态说明

服务到期后 2 小时内为运行中,2~14 小时转为已停止,14 小时后转为已过期并最终删除。

状态

说明

运行中

正常运行,可使用专属模型 code 调用。

待生效

已创建,等待生效。

变配中

正在执行扩缩容,期间服务不中断。

已停止

因欠费等原因停止,续费后可恢复。

已过期

到期且未续费,资源已释放。

已取消

退订完成,不可恢复。

常见问题

Q: 超出预留容量时会怎样?

超出预留容量的请求自动降级为按量计费处理,服务不中断。可在详情页概览 Tab 的超额降级统计中查看降级次数和时间。频繁降级时建议扩容。

Q: 专属模型 code 怎么获取?

创建 TPM 预留后,系统自动生成专属模型 code。在 TPM 预留详情页的概览 Tab 可复制该 code。必须将 API 请求中的 model 参数替换为此 code 才能使用预留容量。

Q: 预留到期后会怎样?

预留到期后,专属模型 code 失效,后续请求自动回退到公共资源处理(按量计费)。建议提前开启到期自动续费避免服务影响。

Q: 如何判断是否需要扩容?

在详情页概览 Tab 查看 TPM 用量趋势图和超额降级统计。如果利用率持续接近 100% 或频繁出现降级,建议扩容输入/输出 TPM。