为了保证用户调用模型的公平性,阿里云百炼设置了基础限流。限流基于模型维度且与用户的阿里云主账号相关联,按照该账号下所有API-KEY调用该模型的总和计算限流。若超出限制,API请求将会失败,需等到解除限流条件时再次调用。
限流规则
- 主账号维度:按主账号下,所有RAM子账号、所有业务空间、所有API-KEY的调用总和计算。 
- 不同模型独立限流:具体参见下方表格。 
限流FAQ
为什么触发限流?
根据错误信息判断:
- Requests rate limit exceeded或You exceeded your current requests list:表示调用频率触发限流。 
- Allocated quota exceeded或You exceeded your current quota:表示Token消耗触发限流。 
- Request rate increased too quickly:表示在未达到RPM或TPM限流条件时,因调用频率在短时间内激增,触发了系统稳定性保护机制。 
- 其他报错请参考错误信息确认原因。 
注意:除了RPM(Requests Per Minute,每分钟请求数)和TPM,限流策略可能按秒级 RPS(RPM/60)与 TPS(TPM/60)限制,即使总调用量未达到每分钟上限,短时间内的请求爆发也可能触发限流。
如何查看模型调用量?
模型调用完一小时后,在模型观测页面设置查询条件(例如,选择时间范围、业务空间等),再在模型列表区域找到目标模型并单击操作列的监控,即可查看该模型的调用统计结果。具体请参见用量与性能观测文档。
数据按小时更新,高峰期可能有小时级延迟,请您耐心等待。

遇到限流后多久恢复?
通常在一分钟内恢复。若出现其他报错,请根据错误信息进行解决。
如何避免限流?
- 选用高限流模型 - 优先使用 qwen-plus 等限流宽松的模型。 
- 稳定版或最新版比带日期的快照版本限流更宽松。 
 
- 优化调用策略 - 调整调用频率:触发Requests rate limit exceeded或You exceeded your current requests list时,降低调用频率。 
- 减少Token消耗:触发Allocated quota exceeded或You exceeded your current quota时,缩短输入或输出长度。 
- 平滑请求速率:当调用频率骤增并触发系统稳定性保护(收到 Request rate increased too quickly 报错)时,建议优化客户端调用逻辑,采用平滑请求策略(如匀速调度、指数退避或请求队列缓冲),将请求均匀分散在时间窗口内,避免瞬时高峰。 
 
- 添加备选模型 - 建议您在遇到限流报错后切换到备用模型继续生成,提升并发并降低失败概率。以下代码展示了调用 - qwen-plus-2025-07-28触发限流,改用- qwen-plus-2025-07-14重发请求的示例。
- 任务拆分:处理长对话或大型文档会快速消耗大量Token。可以将大批量任务拆分为小批次,在不同时间段提交。 
- 批量推理:如果无需实时返回结果,可使用批量推理(Batch API),不受实时限流约束,但需考虑排队和处理时间。 
文本生成-通义千问
通义千问语言模型
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-max | 600 | 1,000,000 | 
| qwen3-max-2025-09-23 | 60 | 100,000 | 
| qwen3-max-preview | 600 | 1,000,000 | 
| qwen-max 用Batch API调用服务时,不受限流限制。 | 1,200 | |
| qwen-max-latest | ||
| qwen-max-2025-01-25 (qwen-max-0125) | 60 | 100,000 | 
| qwen-max-2024-09-19 (qwen-max-0919) | ||
| qwen-max-2024-04-28 (qwen-max-0428) | ||
| qwen-max-2024-04-03 (qwen-max-0403) | ||
| qwen-plus 用Batch API调用服务时,不受限流限制。 | 15,000 | 5,000,000 | 
| qwen-plus-latest | 15,000 | 1,200,000 | 
| qwen-plus-2025-09-11 | 60 | 1,000,000 | 
| qwen-plus-2025-07-28 (qwen-plus-0728) | ||
| qwen-plus-2025-07-14 (qwen-plus-0714) | 100,000 | |
| qwen-plus-2025-04-28 (qwen-plus-0428) | 1,000,000 | |
| qwen-plus-2025-01-25 (qwen-plus-0125) | 150,000 | |
| qwen-plus-2025-01-12 (qwen-plus-0112) | ||
| qwen-plus-2024-12-20 (qwen-plus-1220) | ||
| qwen-plus-2024-11-27 (qwen-plus-1127) | ||
| qwen-plus-2024-11-25 (qwen-plus-1125) | ||
| qwen-plus-2024-09-19 (qwen-plus-0919) | ||
| qwen-plus-2024-08-06 (qwen-plus-0806) | ||
| qwen-plus-2024-07-23 (qwen-plus-0723) | 60,000 | |
| qwen-flash | 15,000 | 10,000,000 | 
| qwen-flash-2025-07-28 | 60 | 1,000,000 | 
| qwen-turbo 用Batch API调用服务时,不受限流限制。 | 1,200 | 5,000,000 | 
| qwen-turbo-latest | ||
| qwen-turbo-2025-07-15 (qwen-turbo-0715) | 60 | 100,000 | 
| qwen-turbo-2025-04-28 (qwen-turbo-0428) | 1,000,000 | |
| qwen-turbo-2025-02-11 (qwen-turbo-0211) | 5,000,000 | |
| qwen-turbo-2024-11-01 (qwen-turbo-1101) | ||
| qwen-turbo-2024-09-19 (qwen-turbo-0919) | 150,000 | |
| qwen-turbo-2024-06-24 (qwen-turbo-0624) | ||
| qwq-plus | 600 | 1,000,000 | 
| qwq-plus-latest | ||
| qwq-plus-2025-03-05 | 60 | 100,000 | 
| qwen-long | 1,200 | 3,000,000 | 
| qwen-long-latest | 60,000 | |
| qwen-long-2025-01-25 (qwen-long-0125) | 3 | 7,500 | 
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-max | 600 | 1,000,000 | 
| qwen3-max-2025-09-23 | 60 | 100,000 | 
| qwen3-max-preview | 600 | 1,000,000 | 
| qwen-max | 600 | 1,000,000 | 
| qwen-max-latest | 60 | 100,000 | 
| qwen-max-2025-01-25 (qwen-max-0125) | ||
| qwen-plus-latest | 600 | 1,000,000 | 
| qwen-plus-2025-09-11 | 120 | 1,000,000 | 
| qwen-plus-2025-07-28 | 60 | 100,000 | 
| qwen-plus-2025-07-14 (qwen-plus-0714) | ||
| qwen-plus-2025-04-28 (qwen-plus-0428) | ||
| qwen-plus-2025-01-25 (qwen-plus-0125) | ||
| qwen-flash | 600 | 5,000,000 | 
| qwen-flash-2025-07-28 | 600 | 5,000,000 | 
| qwq-plus | 60 | 100,000 | 
| qwen-turbo | 600 | 5,000,000 | 
| qwen-turbo-latest | 60 | |
| qwen-turbo-2025-04-28 (qwen-turbo-0428) | ||
| qwen-turbo-2024-11-01 (qwen-turbo-1101) | ||
通义千问Omni
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-omni-flash | 60 | 100,000 | 
| qwen3-omni-flash-2025-09-15 | ||
| qwen-omni-turbo | ||
| qwen-omni-turbo-latest | ||
| qwen-omni-turbo-2025-03-26 (qwen-omni-turbo-0326) | ||
| qwen-omni-turbo-2025-01-19 (qwen-omni-turbo-0119) | ||
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-omni-flash | 60 | 100,000 | 
| qwen3-omni-flash-2025-09-15 | ||
| qwen-omni-turbo | ||
| qwen-omni-turbo-latest | ||
| qwen-omni-turbo-2025-03-26 | ||
通义千问Omni-Realtime
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-omni-flash-realtime | 60 | 100,000 | 
| qwen3-omni-flash-realtime-2025-09-15 | ||
| qwen-omni-turbo-realtime-latest | ||
| qwen-omni-turbo-realtime-2025-05-08 | ||
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-omni-flash-realtime | 60 | 100,000 | 
| qwen3-omni-flash-realtime-2025-09-15 | ||
| qwen-omni-turbo-realtime | ||
| qwen-omni-turbo-realtime-latest | ||
| qwen-omni-turbo-realtime-2025-05-08 | ||
通义千问VL(视觉理解/图生文)
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qvq-max | 60 | 100,000 | 
| qvq-max-latest | ||
| qvq-max-2025-05-15 (qvq-max-0515) | ||
| qvq-max-2025-03-25 (qvq-max-0325) | ||
| qvq-plus | ||
| qvq-plus-latest | ||
| qvq-plus-2025-05-15 (qvq-plus-0515) | ||
| qwen-vl-max | 1,200 | 1,000,000 | 
| qwen-vl-max-latest | ||
| qwen-vl-max-2025-08-13 (qwen-vl-max-0813) | 60 | 100,000 | 
| qwen-vl-max-2025-04-08 (qwen-vl-max-0408) | ||
| qwen-vl-max-2025-04-02 (qwen-vl-max-0402) | ||
| qwen-vl-max-2025-01-25 (qwen-vl-max-0125) | ||
| qwen-vl-max-2024-12-30 (qwen-vl-max-1230) | ||
| qwen-vl-max-2024-11-19 (qwen-vl-max-1119) | ||
| qwen-vl-max-2024-10-30 (qwen-vl-max-1030) | ||
| qwen-vl-max-2024-08-09 (qwen-vl-max-0809) | 15 | 25,000 | 
| qwen3-vl-plus | 1,200 | 1,000,000 | 
| qwen-vl-plus | ||
| qwen-vl-plus-latest | ||
| qwen3-vl-plus-2025-09-23 | 60 | 100,000 | 
| qwen-vl-plus-2025-08-15 (qwen-vl-plus-0815) | ||
| qwen-vl-plus-2025-07-10 (qwen-vl-plus-0710) | ||
| qwen-vl-plus-2025-05-07 (qwen-vl-plus-0507) | ||
| qwen-vl-plus-2025-01-25 (qwen-vl-plus-0125) | ||
| qwen-vl-plus-2025-01-02 (qwen-vl-plus-0102) | ||
| qwen-vl-plus-2024-08-09 (qwen-vl-plus-0809) | ||
| qwen3-vl-flash | 1,200 | 1,000,000 | 
| qwen3-vl-flash-2025-10-15 | 60 | 100,000 | 
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qvq-max | 60 | 100,000 | 
| qvq-max-latest | ||
| qvq-max-2025-03-25 (qvq-max-0325) | ||
| qwen-vl-max | 1,200 | 1,000,000 | 
| qwen-vl-max-latest | ||
| qwen-vl-max-2025-08-13 (qwen-vl-max-0813) | 60 | 100,000 | 
| qwen-vl-max-2025-04-08 (qwen-vl-max-0408) | 1,200 | 1,000,000 | 
| qwen3-vl-plus | ||
| qwen-vl-plus | ||
| qwen-vl-plus-latest | ||
| qwen3-vl-plus-2025-09-23 | 60 | 100,000 | 
| qwen-vl-plus-2025-08-15 (qwen-vl-plus-0815) | 120 | 1,000,000 | 
| qwen-vl-plus-2025-05-07 (qwen-vl-plus-0507) | ||
| qwen-vl-plus-2025-01-25 (qwen-vl-plus-0125) | 1,200 | |
| qwen3-vl-flash | 1,200 | 1,000,000 | 
| qwen3-vl-flash-2025-10-15 | 120 | 1,000,000 | 
通义千问OCR(文字提取)
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen-vl-ocr | 600 | 6,000,000 | 
| qwen-vl-ocr-latest | ||
| qwen-vl-ocr-2025-08-28 | ||
| qwen-vl-ocr-2025-04-13 | ||
| qwen-vl-ocr-2024-10-28 | ||
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen-vl-ocr | 600 | 6,000,000 | 
通义千问Audio(音频理解)
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen-audio-turbo | 120 | 100,000 | 
| qwen-audio-turbo-latest | 60 | |
| qwen-audio-turbo-2024-12-04 | ||
| qwen-audio-turbo-2024-08-07 | 120 | |
通义千问ASR(语音识别)
中国大陆(北京)
Qwen3-ASR
| 模型名称 | 每分钟调用次数(RPM) | 
| qwen3-asr-flash | 60 | 
| qwen3-asr-flash-2025-09-08 | 
Qwen-Audio-ASR
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen-audio-asr | 60 | 100,000 | 
| qwen-audio-asr-latest | ||
| qwen-audio-asr-2024-12-04 | ||
国际(新加坡)
| 模型名称 | 每分钟调用次数(RPM) | 
| qwen3-asr-flash | 60 | 
| qwen3-asr-flash-2025-09-08 | 
通义千问ASR-Realtime(实时语音识别)
中国大陆(北京)
| 模型名称 | 每秒钟调用次数(RPS) | 
| qwen3-asr-flash-realtime | 20 | 
| qwen3-asr-flash-realtime-2025-10-27 | 
国际(新加坡)
| 模型名称 | 每秒钟调用次数(RPS) | 
| qwen3-asr-flash-realtime | 20 | 
| qwen3-asr-flash-realtime-2025-10-27 | 
通义千问数学模型
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen-math-plus | 1,200 | 1,000,000 | 
| qwen-math-plus-latest | ||
| qwen-math-plus-2024-09-19 (qwen-math-plus-0919) | 60 | 100,000 | 
| qwen-math-plus-2024-08-16 (qwen-math-plus-0816) | 10 | 20,000 | 
| qwen-math-turbo | 1200 | 1,000,000 | 
| qwen-math-turbo-latest | ||
| qwen-math-turbo-2024-09-19 (qwen-math-turbo-0919) | 60 | 100,000 | 
通义千问Coder
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-coder-plus | 2,400 | 2,000,000 | 
| qwen3-coder-plus-2025-09-23 | 60 | 1,000,000 | 
| qwen3-coder-plus-2025-07-22 | ||
| qwen3-coder-flash | 1200 | |
| qwen3-coder-flash-2025-07-28 | 60 | |
| qwen-coder-plus | 1,200 | |
| qwen-coder-plus-latest | ||
| qwen-coder-plus-2024-11-06 (qwen-coder-plus-1106) | 60 | 100,000 | 
| qwen-coder-turbo | 1,200 | 1,000,000 | 
| qwen-coder-turbo-latest | ||
| qwen-coder-turbo-2024-09-19 (qwen-coder-turbo-0919) | 60 | 100,000 | 
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-coder-plus | 2,400 | 2,000,000 | 
| qwen3-coder-plus-2025-09-23 | 60 | 1,000,000 | 
| qwen3-coder-plus-2025-07-22 | 60 | 1,000,000 | 
| qwen3-coder-flash | 600 | 5,000,000 | 
| qwen3-coder-flash-2025-07-28 | 600 | 5,000,000 | 
通义千问翻译模型
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen-mt-plus | 60 | 25,000 | 
| qwen-mt-turbo | 35,000 | |
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen-mt-plus | 60 | 100,000 | 
| qwen-mt-turbo | ||
通义千问数据挖掘模型
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen-doc-turbo | 600 | 3,000,000 | 
通义千问深入研究模型
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen-deep-research | 120 | 1,200,000 | 
文本生成-通义千问-开源版
通义千问语言模型开源版
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-next-80b-a3b-thinking | 600 | 1,000,000 | 
| qwen3-next-80b-a3b-instruct | ||
| qwen3-235b-a22b-thinking-2507 | ||
| qwen3-235b-a22b-instruct-2507 | ||
| qwen3-30b-a3b-thinking-2507 | ||
| qwen3-30b-a3b-instruct-2507 | ||
| qwen3-235b-a22b | ||
| qwen3-30b-a3b | ||
| qwen3-32b | ||
| qwen3-14b | ||
| qwen3-8b | ||
| qwen3-4b | ||
| qwen3-1.7b | ||
| qwen3-0.6b | ||
| qwq-32b | ||
| qwq-32b-preview | 1,200 | |
| qwen2.5-72b-instruct | ||
| qwen2.5-32b-instruct | ||
| qwen2.5-14b-instruct | ||
| qwen2.5-14b-instruct-1m | ||
| qwen2.5-7b-instruct | ||
| qwen2.5-7b-instruct-1m | ||
| qwen2.5-3b-instruct | 2,000,000 | |
| qwen2.5-1.5b-instruct | ||
| qwen2.5-0.5b-instruct | ||
| qwen2-72b-instruct | 60 | 150,000 | 
| qwen2-57b-a14b-instruct | ||
| qwen2-7b-instruct | ||
| qwen2-1.5b-instruct | 2,000,000 | |
| qwen2-0.5b-instruct | ||
| qwen1.5-110b-chat | 10 | 20,000 | 
| qwen1.5-72b-chat | 120 | 200,000 | 
| qwen1.5-32b-chat | 10 | 20,000 | 
| qwen1.5-14b-chat | 120 | 200,000 | 
| qwen1.5-7b-chat | ||
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-235b-a22b-thinking-2507 | 600 | 1,000,000 | 
| qwen3-235b-a22b-instruct-2507 | ||
| qwen3-30b-a3b-thinking-2507 | ||
| qwen3-30b-a3b-instruct-2507 | ||
| qwen3-235b-a22b | ||
| qwen3-32b | ||
| qwen3-30b-a3b | ||
| qwen3-14b | ||
| qwen3-8b | ||
| qwen3-4b | ||
| qwen3-1.7b | ||
| qwen3-0.6b | ||
| qwen2.5-14b-instruct-1m | 60 | 1,000,000 | 
| qwen2.5-7b-instruct-1m | ||
| qwen2.5-72b-instruct | 100,000 | |
| qwen2.5-32b-instruct | ||
| qwen2.5-14b-instruct | ||
| qwen2.5-7b-instruct | ||
Qwen-Omni
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen2.5-omni-7b | 60 | 100,000 | 
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen2.5-omni-7b | 60 | 100,000 | 
Qwen3-Omni-Captioner
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-omni-30b-a3b-captioner | 60 | 100,000 | 
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-omni-30b-a3b-captioner | 60 | 100,000 | 
Qwen-VL
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-vl-32b-thinking | 600 | 1,000,000 | 
| qwen3-vl-32b-instruct | ||
| qwen3-vl-30b-a3b-thinking | ||
| qwen3-vl-30b-a3b-instruct | ||
| qwen3-vl-8b-thinking | ||
| qwen3-vl-8b-instruct | ||
| qwen3-vl-235b-a22b-thinking | 60 | 100,000 | 
| qwen3-vl-235b-a22b-instruct | ||
| qwen2.5-vl-72b-instruct | ||
| qwen2.5-vl-32b-instruct | ||
| qwen2.5-vl-7b-instruct | 1,200 | 1,000,000 | 
| qwen2.5-vl-3b-instruct | ||
| qwen2-vl-72b-instruct | 60 | 100,000 | 
| qwen2-vl-7b-instruct | 1,200 | 1,000,000 | 
| qwen2-vl-2b-instruct | ||
| qwen-vl-v1 | 60 | 10,000 | 
| qwen-vl-chat-v1 | ||
| qvq-72b-preview | 60 | 100,000 | 
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-vl-32b-thinking | 60 | 100,000 | 
| qwen3-vl-32b-instruct | ||
| qwen3-vl-30b-a3b-thinking | ||
| qwen3-vl-30b-a3b-instruct | ||
| qwen3-vl-8b-thinking | ||
| qwen3-vl-8b-instruct | ||
| qwen3-vl-235b-a22b-thinking | ||
| qwen3-vl-235b-a22b-instruct | ||
| qwen2.5-vl-72b-instruct | ||
| qwen2.5-vl-32b-instruct | ||
| qwen2.5-vl-7b-instruct | ||
| qwen2.5-vl-3b-instruct | ||
Qwen-Audio
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen-audio-chat | 120 | 100,000 | 
Qwen-Math
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen2.5-math-72b-instruct | 1,200 | 1,000,000 | 
| qwen2.5-math-7b-instruct | ||
| qwen2.5-math-1.5b-instruct | ||
Qwen-Coder
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-coder-480b-a35b-instruct | 600 | 1,000,000 | 
| qwen3-coder-30b-a3b-instruct | 600 | |
| qwen2.5-coder-32b-instruct | 1,200 | |
| qwen2.5-coder-14b-instruct | ||
| qwen2.5-coder-7b-instruct | ||
| qwen2.5-coder-3b-instruct | 2,000,000 | |
| qwen2.5-coder-1.5b-instruct | ||
| qwen2.5-coder-0.5b-instruct | ||
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-coder-480b-a35b-instruct | 600 | 1,000,000 | 
| qwen3-coder-30b-a3b-instruct | 600 | 1,000,000 | 
文本生成-第三方模型
DeepSeek
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| deepseek-v3.2-exp | 15,000 | 1,200,000 | 
| deepseek-v3.1 | ||
| deepseek-r1-0528 | 60 | 100,000 | 
| deepseek-r1 | 15,000 | 1,200,000 | 
| deepseek-v3 | ||
| deepseek-r1-distill-qwen-7b | ||
| deepseek-r1-distill-qwen-14b | ||
| deepseek-r1-distill-qwen-32b | ||
| deepseek-r1-distill-qwen-1.5b | 60 | 100,000 | 
| deepseek-r1-distill-llama-8b | ||
| deepseek-r1-distill-llama-70b | ||
Kimi
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| Moonshot-Kimi-K2-Instruct | 60 | 100,000 | 
GLM
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| glm-4.6 | 60 | 1,000,000 | 
| glm-4.5 | ||
| glm-4.5-air | ||
Llama
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| llama-4-maverick-17b-128e-instruct | 10 | 20,000 | 
| llama-4-scout-17b-16e-instruct | ||
百川
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| baichuan2-turbo-192k | 60 | 100,000 | 
| baichuan2-turbo | ||
MiniMax
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| abab6.5s-chat | 60 | 100,000 | 
| abab6.5t-chat | ||
| abab6.5g-chat | ||
图像生成
通义千问(Qwen-Image)
中国大陆(北京)
| 模型名称 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 每秒钟任务下发接口RPS限制 | 同时处理中任务数量(并发数) | ||
| 文生图 | qwen-image-plus | 2 | 2 | 
| qwen-image | 2 | 2 | |
| 图像编辑 | qwen-image-edit | 2 | 同步接口无限制 | 
| 图像翻译 | qwen-mt-image | 1 | 2 | 
国际(新加坡)
| 模型服务 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 每秒钟任务下发接口RPS限制 | 同时处理中任务数量(并发数) | ||
| 文生图 | qwen-image-plus | 2 | 2 | 
| qwen-image | 2 | 2 | |
| 图像编辑 | qwen-image-edit | 2 | 同步接口无限制 | 
通义万相
中国大陆(北京)
| 模型服务 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 每秒钟任务下发接口RPS限制 | 同时处理中任务数量(并发数) | ||
| 文生图 | wan2.5-t2i-preview | 5 | 5 | 
| wan2.2-t2i-plus | 2 | 2 | |
| wan2.2-t2i-flash | |||
| wanx2.1-t2i-plus | |||
| wanx2.1-t2i-turbo | |||
| wanx2.0-t2i-turbo | |||
| 通用图像编辑 | wan2.5-i2i-preview | 5 | 5 | 
| wanx2.1-imageedit | 2 | 2 | |
| 文生图 | wanx-v1 | 2 | 1 | 
| 图像局部重绘 | wanx-x-painting | ||
| 涂鸦作画 | wanx-sketch-to-image-lite | ||
国际(新加坡)
| 模型服务 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 每秒钟任务下发接口RPS限制 | 同时处理中任务数量(并发数) | ||
| 文生图 | wan2.5-t2i-preview | 5 | 5 | 
| wan2.2-t2i-flash | 2 | 2 | |
| wan2.2-t2i-plus | |||
| wan2.1-t2i-turbo | |||
| wan2.1-t2i-plus | |||
| 通用图像编辑 | wan2.5-i2i-preview | 5 | 5 | 
图像编辑与生成
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 每秒钟任务下发接口RPS限制 | 同时处理中任务数量(并发数) | |
| shoemodel-v1 | 2 | 1 | 
| wanx-virtualmodel | ||
| wanx-style-repaint-v1 | ||
| image-out-painting | ||
| wanx-poster-generation-v1 | ||
| virtualmodel-v2 | ||
| wanx-background-generation-v2 | ||
| image-instance-segmentation | ||
| image-erase-completion | ||
人物写真生成-FaceChain
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 作业提交接口RPS限制 | 同时处理中任务数量 | |
| facechain-facedetect | 5 | 同步接口无限制 | 
| facechain-finetune | 2 | 1 | 
| facechain-generation | ||
创意文字生成-WordArt锦书
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 作业提交接口RPS限制 | 同时处理中任务数量 | |
| wordart-texture | 2 | 1 | 
| wordart-semantic | ||
AI试衣-OutfitAnyone
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 作业提交接口RPS限制 | 同时处理中任务数量 | |
| aitryon | 10 | 5 | 
| aitryon-plus | 10 | 5 | 
| aitryon-parsing-v1 | 10 | 同步接口无限制 | 
| aitryon-refiner | 10 | 5 | 
图像生成-第三方模型
StableDiffusion文生图模型
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 作业提交接口RPS限制 | 同时处理中任务数量 | |
| stable-diffusion-3.5-large | 2 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 | 
| stable-diffusion-3.5-large-turbo | ||
| stable-diffusion-xl | ||
| stable-diffusion-v1.5 | ||
FLUX文生图模型
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 作业提交接口RPS限制 | 同时处理中任务数量 | |
| flux-merged | 2 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 | 
| flux-dev | ||
| flux-schnell | ||
语音合成(文本转语音)
Qwen-TTS语音合成
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-tts-flash | 10 | 无TPM限制 | 
| qwen3-tts-flash-2025-09-18 | ||
| qwen-tts | 100,000 | |
| qwen-tts-latest | ||
| qwen-tts-2025-05-22 | ||
| qwen-tts-2025-04-10 | ||
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-tts-flash | 10 | 无TPM限制 | 
| qwen3-tts-flash-2025-09-18 | ||
Qwen-TTS-Realtime语音合成
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-tts-flash-realtime | 10 | 无TPM限制 | 
| qwen3-tts-flash-realtime-2025-09-18 | ||
| qwen-tts-realtime | 100,000 | |
| qwen-tts-realtime-latest | ||
| qwen-tts-realtime-2025-07-15 | ||
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-tts-flash-realtime | 10 | 无TPM限制 | 
| qwen3-tts-flash-realtime-2025-09-18 | ||
CosyVoice
仅支持中国大陆(北京)地域。
语音合成
| 模型名称 | 提交作业接口RPS限制 | 
| cosyvoice-v3-plus | 3 | 
| cosyvoice-v3 | |
| cosyvoice-v2 | |
| cosyvoice-v1 | 
声音复刻
| 模型名称 | 提交作业接口RPS限制 | 
| cosyvoice-v3-plus | 10 无论声音复刻功能是单独调用某一模型版本,还是同时调用多个模型版本,其总并发请求数均限制为 10 RPS。这意味着: 
 | 
| cosyvoice-v3 | |
| cosyvoice-v2 | |
| cosyvoice-v1 | 
Sambert语音合成
仅支持中国大陆(北京)地域。
| 模型服务 | 提交作业接口RPS限制 | 
| Sambert系列模型 | 20 | 
语音识别(语音转文本)与翻译(语音转成指定语种的文本)
通义千问3-LiveTranslate-Flash-Realtime
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-livetranslate-flash-realtime | 10 | 100,000 | 
| qwen3-livetranslate-flash-realtime-2025-09-22 | ||
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-livetranslate-flash-realtime | 10 | 100,000 | 
| qwen3-livetranslate-flash-realtime-2025-09-22 | ||
Gummy语音识别/翻译
仅支持中国大陆(北京)地域。
| 模型名称 | 提交作业接口RPS限制 | 
| gummy-realtime-v1 | 10 | 
| gummy-chat-v1 | 
Fun-ASR录音文件识别
中国大陆(北京)
| 模型名称 | 提交作业接口RPS限制 | 任务查询接口RPS限制 | 
| fun-asr | 10 | 20 | 
| fun-asr-2025-08-25 | ||
| fun-asr-mtl | ||
| fun-asr-mtl-2025-08-25 | 
国际(新加坡)
| 模型名称 | 提交作业接口RPS限制 | 任务查询接口RPS限制 | 
| fun-asr | 10 | 20 | 
| fun-asr-2025-08-25 | 
Fun-ASR实时语音识别
仅支持中国大陆(北京)地域。
| 模型名称 | 提交作业接口RPS限制 | 
| fun-asr-realtime | 20 | 
| fun-asr-realtime-2025-09-15 | 
Paraformer语音识别
仅支持中国大陆(北京)地域。
| 模型名称 | 提交作业接口RPS限制 | 
| paraformer-realtime-v2 | 20 | 
| paraformer-realtime-v1 | |
| paraformer-realtime-8k-v2 | |
| paraformer-realtime-8k-v1 | 
| 模型名称 | 提交作业接口RPS限制 | 任务查询接口RPS限制 | 
| paraformer-v2 | 20 | 20 | 
| paraformer-v1 | 10 | |
| paraformer-8k-v2 | 20 | |
| paraformer-8k-v1 | 10 | |
| paraformer-mtl-v1 | 10 | 
SenseVoice语音识别
仅支持中国大陆(北京)地域。
| 模型名称 | 提交作业接口RPS限制 | 任务查询接口RPS限制 | 
| sensevoice-v1 | 10 | 20 | 
视频生成
通义万相系列
中国大陆(北京)
| 模型服务 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 每秒钟任务下发接口RPS限制 | 同时处理中任务数量(并发数) | ||
| 文生视频 | wan2.5-t2v-preview | 5 | 5 | 
| wan2.2-t2v-plus | 2 | 2 | |
| wanx2.1-t2v-turbo | |||
| wanx2.1-t2v-plus | |||
| 图生视频-基于首帧 | wan2.5-i2v-preview | 5 | 5 | 
| wan2.2-i2v-flash | 2 | 2 | |
| wan2.2-i2v-plus | |||
| wanx2.1-i2v-turbo | |||
| wanx2.1-i2v-plus | |||
| 图生视频-基于首尾帧 | wan2.2-kf2v-flash | ||
| wanx2.1-kf2v-plus | |||
| 通用视频编辑 | wanx2.1-vace-plus | ||
| 数字人s2v | wan2.2-s2v-detect | 5 | 同步接口无限制 | 
| wan2.2-s2v | 1 | ||
| 图生动作 | wan2.2-animate-move | 5 | 1 | 
| 视频换人 | wan2.2-animate-mix | 5 | 1 | 
国际(新加坡)
| 模型服务 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 每秒钟任务下发接口RPS限制 | 同时处理中任务数量(并发数) | ||
| 文生视频 | wan2.5-t2v-preview | 5 | 5 | 
| wan2.2-t2v-plus | 2 | 2 | |
| wan2.1-t2v-turbo | |||
| wan2.1-t2v-plus | |||
| 图生视频-基于首帧 | wan2.5-i2v-preview | 5 | 5 | 
| wan2.2-i2v-plus | 2 | 2 | |
| wan2.1-i2v-turbo | |||
| wan2.1-i2v-plus | |||
| 图生视频-基于首尾帧 | wan2.1-kf2v-plus | ||
| 通用视频编辑 | wan2.1-vace-plus | ||
舞动人像AnimateAnyone
仅支持中国大陆(北京)地域。
| 模型名称 | 任务下发接口RPS限制 | 同时处理中任务数量 | 
| animate-anyone-detect-gen2 | 5 | 同步接口无限制 | 
| animate-anyone-template-gen2 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 | |
| animate-anyone-gen2 | ||
| animate-anyone-detect | 1算力单元支持2并发 | |
| animate-anyone | 1算力单元支持1并发 | 
悦动人像EMO
仅支持中国大陆(北京)地域。
| 模型名称 | 任务下发接口RPS限制 | 同时处理中任务数量 | 
| emo-detect-v1 | 5 | 同步接口无限制 | 
| emo-v1 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 | 
灵动人像LivePortrait
仅支持中国大陆(北京)地域。
| 模型名称 | 任务下发接口RPS限制 | 同时处理中任务数量 | 
| liveportrait-detect | 5 | 同步接口无限制 | 
| liveportrait | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 | 
声动人像VideoRetalk
仅支持中国大陆(北京)地域。
| 模型名称 | 任务下发接口RPS限制 | 同时处理中任务数量 | 
| videoretalk | 1 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 | 
表情包Emoji
仅支持中国大陆(北京)地域。
| 模型名称 | 任务下发接口RPS限制 | 同时处理中任务数量 | 
| emoji-detect-v1 | 1 | 同步接口无限制 | 
| emoji-v1 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 | 
视频风格重绘
仅支持中国大陆(北京)地域。
| 模型名称 | 任务下发接口RPS限制 | 同时处理中任务数量 | 
| video-style-transform | 2 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 | 
向量模型
文本向量
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 每秒钟调用次数(RPS) | 每分钟消耗Token数(TPM)/作业数 仅输入Token | |
| text-embedding-v1 | 30 | 1,200,000 | 
| text-embedding-v2 | ||
| text-embedding-v3 | ||
| text-embedding-v4 | ||
| text-embedding-async-v1 | 1 | 当前用户在系统通用文本向量异步作业排队中和运行中的作业数量不超过50个。 另外,为了避免大量突发的作业占据太多资源,限制并发的作业数为3个,即任意时间,单个用户最多只有3个通用文本向量的异步作业在并发运行,其他的作业只能在队列中等待。 | 
| text-embedding-async-v2 | ||
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM)/作业数 含输入与输出Token | |
| text-embedding-v3 | 6,000 | 24,000,000 | 
多模态向量
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 仅输入Token | |
| qwen2.5-vl-embedding | 1,200 | 600,000 | 
| tongyi-embedding-vision-plus | 600 | 200,000 | 
| tongyi-embedding-vision-flash | 600 | |
| multimodal-embedding-v1 | 120 | |
文本分类、抽取、排序
OpenNLU
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| opennlu-v1 | 60 | 10,000 | 
文本排序模型
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen3-rerank | 5,400 | 5,000,000,000 | 
| gte-rerank-v2 | 5,040 | 4,980,000,000 | 
行业
通义法睿(法律模型)
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| farui-plus | 120 | 500,000 | 
意图理解
仅支持中国大陆(北京)地域。
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| tongyi-intent-detect-v3 | 1,200 | 1,000,000 | 
角色扮演
中国大陆(北京)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen-plus-character | 120 | 20,000 | 
国际(新加坡)
| 模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
| qwen-plus-character-ja | 60 | 100,000 | 
已下线模型
详细信息,请参见模型下线机制说明。
2025年7月30日下线
| 类别 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | ||
| 通义千问VL | qwen-vl-plus-2023-12-01 | 0 | 0 | 
| 零一万物 | yi-large | ||
| yi-medium | |||
| yi-large-rag | |||
| yi-large-turbo | |||
| Dolly | dolly-12b-v2 | ||
2025年7月2日下线
| 类别 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | ||
| Llama-仅文本输入 | llama3.3-70b-instruct | 0 | 0 | 
| llama3.2-3b-instruct | |||
| llama3.2-1b-instruct | |||
| llama3.1-405b-instruct | |||
| llama3.1-70b-instruct | |||
| llama3.1-8b-instruct | |||
| llama3-70b-instruct | |||
| llama3-8b-instruct | |||
| llama2-13b-chat-v2 | |||
| llama2-7b-chat-v2 | |||
| Llama-文本和图像输入 | llama3.2-90b-vision-instruct | ||
| llama3.2-11b-vision | |||
| 百川-开源版 | baichuan2-13b-chat-v1 | ||
| baichuan2-7b-chat-v1 | |||
| baichuan-7b-v1 | |||
| ChatGLM | chatglm3-6b | ||
| chatglm-6b-v2 | |||
| 姜子牙 | ziya-llama-13b-v1 | ||
| BELLE | belle-llama-13b-2m-v1 | ||
| 元语 | chatyuan-large-v2 | ||
| BiLLa | billa-7b-sft-v1 | ||
| 类别 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
| 每秒钟任务下发接口RPS限制 | 同时处理中任务数量 | ||
| 动漫人物生成 | wanx-style-cosplay-v1 | 0 | 0 | 
| 图配文 | wanx-ast | ||
| 创意文字生成-WordArt锦书 | wordart-surnames | ||
| AnyText图文融合 | wanx-anytext-v1 | ||
2025年5月8日下线
| 类别 | 模型名称 | 限流条件(超出任一数值时触发限流) | 替代模型 | |
| 每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |||
| 文本生成-通义千问 | qwen-max-2024-01-07 (qwen-max-0107) | 0 | 0 | qwen-max | 
| qwen-plus-2024-06-24 (qwen-plus-0624) | qwen-plus | |||
| qwen-plus-2024-02-06 (qwen-plus-0206) | ||||
| qwen-turbo-2024-02-06 (qwen-turbo-0206) | qwen-turbo | |||
| qwen-vl-max-2024-02-01 (qwen-vl-max-0201) | qwen-vl-max | |||
| 文本生成-通义千问-开源版 | qwen-72b-chat | qwen2.5-72b-instruct | ||
| qwen-14b-chat | qwen2.5-14b-instruct | |||
| qwen-7b-chat | qwen2.5-7b-instruct | |||
| qwen-1.8b-chat | qwen2.5-1.5b-instruct | |||
| qwen-1.8b-longcontext-chat | qwen2.5-1.5b-instruct | |||
| qwen2-math-72b-instruct | qwen2.5-math-72b-instruct | |||
| qwen2-math-7b-instruct | qwen2.5-math-7b-instruct | |||
| qwen2-math-1.5b-instruct | qwen2.5-math-1.5b-instruct | |||
| 类别 | 模型名称 | 限流条件(超出任一数值时触发限流) | 替代模型 | |
| 任务下发接口RPS限制 | 同时处理中任务数量 | |||
| 幻影人像Motionshop视频生成模型 | motionshop-video-detect | 0 | 0 | 使用animate-anyone-gen2的“按视频背景生成”功能,可达到近似效果 | 
| motionshop-gen3d | ||||
| motionshop-synthesis | ||||