TPM 预留为指定模型锁定专属推理容量,确保业务高峰期不受公共限流影响。本文介绍如何创建、接入和管理 TPM 预留。
功能概述
通过 TPM(Tokens Per Minute)预留,您可以为指定模型锁定专属的推理吞吐量,预留容量内的调用不受公共资源限流影响。
容量保障:预留的 TPM 容量为您的业务专属,不与其他用户共享。
专属模型 code:创建 TPM 预留后,系统自动生成专属模型 code,您需要将 API 请求中的
model参数替换为该 code。超额不中断:超出预留容量的请求自动降级为按量计费处理,无需修改代码。
方案对比与选型
百炼为推理调用提供多种容量与计费方案,常见包括按量付费、资源包与节省计划、TPM 预留、PTU 专属部署。不同方案在计费单位、容量保障强度、超额处理方式与接入改动上各有侧重,本节帮助您根据业务诉求选择合适的方案。
方案 | 计费单位 | 容量保障 | 适用场景 | 超额处理 | 代码改动 |
按量付费 | 按 token | 无(共享公共池) | 流量波动大/短期 | 自动服务,受公共限流 | 无需改动 |
资源包/节省计划 | 预付费额度 | 承诺用量折扣(非专属容量) | 费用优化 | 超出转按量 | 无需改动 |
TPM 预留 | 按 kTPM 预付费 | 专属容量刚性兑付 | 流量可预估、不能接受限流 | 超出自动降级公共池按量,不中断 | 替换 model 参数即可 |
PTU(模型部署) | 按 kTPM 预付费 | 专属部署实例 | 高吞吐高性能 | 超出转按量 | 替换 model 参数即可 |
支持的模型
华北2(北京)
模型名称 | 预付费-按天 | |
输入(Per 1000 TPM) | 输出(Per 1,000 TPM) | |
qwen3.6-plus-2026-04-02 | ¥2.02 | ¥12.10 |
qwen3.6-flash-2026-04-16 | ¥1.21 | ¥7.26 |
qwen3.5-plus-2026-04-20 | ¥0.81 | ¥4.84 |
qwen3.7-max-2026-05-20 | ¥12.10 | ¥36.29 |
qwen3.7-plus-2026-05-26 | ¥2.02 | ¥8.06 |
glm-5.1 | ¥6.05 | ¥24.19 |
kimi-k2.6 | ¥6.55 | ¥27.22 |
deepseek-v4-flash | ¥1.01 | ¥2.02 |
deepseek-v4-pro | ¥12.10 | ¥24.19 |
glm-5.2 | ¥8.06 | ¥28.22 |
新加坡
模型名称 | 预付费-按天 | |
输入(Per 1000 TPM) | 输出(Per 1,000 TPM) | |
qwen3.6-plus-2026-04-02 | ¥3.78 | ¥22.66 |
qwen3.6-flash-2026-04-16 | ¥1.89 | ¥11.33 |
qwen3.5-plus-2026-04-20 | ¥3.02 | ¥18.13 |
qwen3.7-max-2026-05-20 | ¥18.89 | ¥56.66 |
qwen3.7-plus-2026-05-26 | ¥3.02 | ¥12.09 |
glm-5.1 | ¥10.58 | ¥33.24 |
deepseek-v4-flash | ¥1.51 | ¥3.02 |
deepseek-v4-pro | ¥18.13 | ¥36.26 |
计费与使用说明
部署成功即开始计费,预留容量内的调用不额外收费。
预付费一次性支付,从购买成功起连续生效。详细费用以百炼控制台为准。
缩容与退订退费:已使用部分按 1.5 倍系数结算,直接引用公式:
退款 = 降量部分预付费 - (降量部分预付费 × 已用时长/购买时长 × 1.5)超出保障额度后自动降级为标准按量计费,服务不中断。可在详情页超额降级统计中查看降级次数。
服务到期后 2 小时内:实例仍为运行中,可继续调用,可续费;到期后 2~14 小时:实例已停止,不可调用,仍可续费;到期 14 小时后:实例已删除,不可恢复。
创建 TPM 预留
前提条件:已开通百炼模型服务,已创建业务空间。登录百炼控制台,单击创建 TPM 预留。

创建 TPM 预留需一次性支付预付费用。建议先使用容量计算器估算所需 TPM,确认费用后再提交。
填写以下参数:
参数
说明
必填
取值说明
预留名称
自定义名称,便于识别。
是
≤ 50 个字符
选择模型
选择需要预留容量的模型。提交后自动生成专属模型 code。
是
仅支持已开放 TPM 预留的模型,以控制台展示为准。
付费周期
计费周期。
是
按天
输入 TPM
预留的输入吞吐量,单位 kTPM(1 kTPM = 1,000 Tokens/分钟)。
是
起步和步长因模型而异,以控制台展示为准。
输出 TPM
预留的输出吞吐量,单位 kTPM。
是
起步和步长因模型而异,以控制台展示为准。
购买时长
预留的有效时长。
是
支持多种选择。
到期自动续费
到期前一天 08:00 自动扣款续费。默认开启。
否
开启 / 关闭
单次续费时长
每次自动续费的时长。
否
与购买时长取值一致。
确认参数后单击立即购买,在费用确认弹窗中核对费用,单击确认支付。
在 TPM 预留详情页的概览 Tab,找到专属模型 code,单击复制。
将 API 请求中的
model参数替换为复制的专属模型 code:前提条件:已创建 TPM 预留实例且状态为运行中。
# 短时间内请求量快速拉升时,系统需要短暂预热以匹配所需算力 # 预热期间部分请求可能出现延迟波动,预热完成后恢复稳定。 # 请做好请求排队或重试机制。 import dashscope response = dashscope.Generation.call( api_key="your-api-key", model="your-dedicated-model-code", # 替换为专属模型 code messages=[{"role": "user", "content": "你好"}], ) print(response.output.text)# 短时间内请求量快速拉升时,系统需要短暂预热以匹配所需算力 # 预热期间部分请求可能出现延迟波动,预热完成后恢复稳定。 # 请做好请求排队或重试机制。 curl -X POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \ -H "Authorization: Bearer $DASHSCOPE_API_KEY" \ -H "Content-Type: application/json" \ -d '{"model":"your-dedicated-model-code","messages":[{"role":"user","content":"你好"}]}'
容量计算器
创建页面右侧提供容量计算器,帮助您根据业务负载估算需要购买的 TPM 额度。填写以下参数后,计算器自动输出推荐的输入 TPM 和输出 TPM。
参数 | 说明 | 对结果的影响 |
每分钟请求数(RPM) | 业务高峰期每分钟发送的请求数。 | RPM 越大,建议购买的输入和输出 TPM 同比增大。 |
平均输入长度(token) | 每条请求的平均输入 token 数。 | 输入越长,所处阶梯越高,系数越大,建议购买的输入 TPM 越高。不同模型的阶梯边界不同,以控制台实际展示为准。 |
平均输出长度(token) | 每条请求的平均输出 token 数。 | 输出越长,系数可能越大,建议购买的输出 TPM 越高。 |
预估缓存命中率(%) | 请求中重复前缀被缓存命中的比例。实际命中率取决于请求内容的重复程度,以运行结果为准。 | 命中率越高,输入容量消耗越慢,建议购买的输入 TPM 越低。仅影响输入 TPM,不影响输出 TPM。 |

查看与管理

预留详情
单击目标模型卡片进入详情页,包含以下 3 个 Tab:
概览

基本信息:预留名称、专属模型 code(可复制)、基座模型、输入/输出容量。
统计卡片(近 7 天):生效预留数、TPM 总量与峰值用量、平均利用率。
TPM 用量趋势图:可切换输入/输出方向,展示预留容量线和实际用量。
超额降级统计:展示超出预留容量后被降级处理的次数。
监控
提供详细的运行监控数据:利用率、配额用量(输入/输出)、配额内/外调用次数、缓存命中量。更多详细信息请参考:模型监控。

API 接入
展示专属模型 code 和调用示例。

管理操作
在详情页概览 Tab 的预留列表中,找到目标实例,通过操作列执行以下操作:
扩缩容

单击扩缩容,在弹窗中调整输入 TPM 和输出 TPM。
续费
单击续订,选择续费时长并完成支付。如已开启到期自动续费,系统在到期前一天 08:00 自动扣款续费。
退订
单击退订,系统跳转至费用中心完成退订流程。
退订不可恢复。退订后专属模型 code 失效,已有请求将回退至公共资源处理。