限流-大模型服务平台百炼(Model Studio)-阿里云帮助中心

为了保证用户调用模型的公平性，阿里云百炼设置了基础限流。限流基于模型维度且与用户的阿里云主账号相关联，按照该账号下所有API-KEY调用该模型的总和计算限流。若超出限制，API请求将会失败，需等到解除限流条件时再次调用。

限流规则

主账号维度：按主账号下，所有RAM子账号、所有业务空间、所有API-KEY的调用总和计算。
不同模型独立限流：具体参见下方表格。

限流FAQ

为什么触发限流？

根据错误信息判断：

Requests rate limit exceeded或You exceeded your current requests list：表示调用频率触发限流。
Allocated quota exceeded或You exceeded your current quota：表示Token消耗触发限流。
Request rate increased too quickly：表示在未达到RPM或TPM限流条件时，因调用频率在短时间内激增，触发了系统稳定性保护机制。
其他报错请参考错误信息确认原因。

注意：除了RPM（Requests Per Minute，每分钟请求数）和TPM，限流策略可能按秒级 RPS（RPM/60）与 TPS（TPM/60）限制，即使总调用量未达到每分钟上限，短时间内的请求爆发也可能触发限流。

如何查看模型调用量？

模型调用完一小时后，在模型观测页面设置查询条件（例如，选择时间范围、业务空间等），再在模型列表区域找到目标模型并单击操作列的监控，即可查看该模型的调用统计结果。具体请参见用量与性能观测文档。

数据按小时更新，高峰期可能有小时级延迟，请您耐心等待。

遇到限流后多久恢复？

通常在一分钟内恢复。若出现其他报错，请根据错误信息进行解决。

如何避免限流？

选用高限流模型
- 优先使用 qwen-plus 等限流宽松的模型。
- 稳定版或最新版比带日期的快照版本限流更宽松。
优化调用策略
- 调整调用频率：触发Requests rate limit exceeded或You exceeded your current requests list时，降低调用频率。
- 减少Token消耗：触发Allocated quota exceeded或You exceeded your current quota时，缩短输入或输出长度。
- 平滑请求速率：当调用频率骤增并触发系统稳定性保护（收到 Request rate increased too quickly 报错）时，建议优化客户端调用逻辑，采用平滑请求策略（如匀速调度、指数退避或请求队列缓冲），将请求均匀分散在时间窗口内，避免瞬时高峰。

添加备选模型

建议您在遇到限流报错后切换到备用模型继续生成，提升并发并降低失败概率。以下代码展示了调用 qwen-plus-2025-07-28 触发限流，改用 qwen-plus-2025-07-14 重发请求的示例。

示例代码

import os
import asyncio
from openai import AsyncOpenAI, APIStatusError

# 配置
API_KEY = os.getenv("DASHSCOPE_API_KEY")
# 主用模型
MODEL = "qwen-plus-2025-07-28"
# 备选模型
BACKUP_MODEL = "qwen-plus-2025-07-14"
# 测试问题
QUESTION = "你是谁？"
# 并发设置
NUM_REQUESTS = 10

client = AsyncOpenAI(
    api_key=API_KEY,
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)

async def send_request(model):
    """发送单个请求"""
    try:
        await client.chat.completions.create(
            model=model,
            messages=[{"role": "user", "content": QUESTION}]
        )
        return True
    except APIStatusError as e:
        if e.status_code == 429:
            print(f"[限流触发] 模型 {model}")
            return False
        raise
    except Exception as e:
        print(f"[请求失败] 模型 {model}，错误：{e}")
        return False

async def task(i):
    # 尝试主模型
    if await send_request(MODEL):
        return True
    # 限流时尝试备用模型
    return await send_request(BACKUP_MODEL)

async def main():
    results = await asyncio.gather(*(task(i) for i in range(NUM_REQUESTS)))
    print(f"成功请求: {sum(results)}, 失败请求: {len(results) - sum(results)}")

if __name__ == "__main__":
    asyncio.run(main())

任务拆分：处理长对话或大型文档会快速消耗大量Token。可以将大批量任务拆分为小批次，在不同时间段提交。
批量推理：如果无需实时返回结果，可使用批量推理（Batch API），不受实时限流约束，但需考虑排队和处理时间。

文本生成-通义千问

通义千问语言模型

中国大陆（北京）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-max	600	1,000,000
qwen3-max-2025-09-23	60	100,000
qwen3-max-preview	600	1,000,000
qwen-max 用Batch API调用服务时，不受限流限制。	1,200
qwen-max-latest	1,200
qwen-max-2025-01-25 （qwen-max-0125）	60	100,000
qwen-max-2024-09-19 （qwen-max-0919）
qwen-max-2024-09-19 （qwen-max-0919）
qwen-max-2024-04-28 （qwen-max-0428）
qwen-max-2024-04-03 （qwen-max-0403）
qwen-plus 用Batch API调用服务时，不受限流限制。	15,000	5,000,000
qwen-plus-latest	15,000	1,200,000
qwen-plus-2025-09-11	60	1,000,000
qwen-plus-2025-07-28 （qwen-plus-0728）		1,000,000
qwen-plus-2025-07-14 （qwen-plus-0714）		100,000
qwen-plus-2025-04-28 （qwen-plus-0428）		1,000,000
qwen-plus-2025-01-25 （qwen-plus-0125）		150,000
qwen-plus-2025-01-12 （qwen-plus-0112）
qwen-plus-2024-12-20 （qwen-plus-1220）
qwen-plus-2024-11-27 (qwen-plus-1127)
qwen-plus-2024-11-25 (qwen-plus-1125)
qwen-plus-2024-09-19 (qwen-plus-0919)
qwen-plus-2024-08-06 （qwen-plus-0806）
qwen-plus-2024-07-23 （qwen-plus-0723）		60,000
qwen-flash	15,000	10,000,000
qwen-flash-2025-07-28	60	1,000,000
qwen-turbo 用Batch API调用服务时，不受限流限制。	1,200	5,000,000
qwen-turbo-latest	1,200	5,000,000
qwen-turbo-2025-07-15 (qwen-turbo-0715)	60	100,000
qwen-turbo-2025-04-28 (qwen-turbo-0428)		1,000,000
qwen-turbo-2025-02-11 (qwen-turbo-0211)		5,000,000
qwen-turbo-2024-11-01 (qwen-turbo-1101)		5,000,000
qwen-turbo-2024-09-19 (qwen-turbo-0919)		150,000
qwen-turbo-2024-06-24 （qwen-turbo-0624）		150,000
qwq-plus	600	1,000,000
qwq-plus-latest	600	1,000,000
qwq-plus-2025-03-05	60	100,000
qwen-long	1,200	3,000,000
qwen-long-latest	1,200	60,000
qwen-long-2025-01-25 (qwen-long-0125)	3	7,500

国际（新加坡）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-max	600	1,000,000
qwen3-max-2025-09-23	60	100,000
qwen3-max-preview	600	1,000,000
qwen-max	600	1,000,000
qwen-max-latest	60	100,000
qwen-max-2025-01-25 (qwen-max-0125)	60	100,000
qwen-plus-latest	600	1,000,000
qwen-plus-2025-09-11	120	1,000,000
qwen-plus-2025-07-28	60	100,000
qwen-plus-2025-07-14 (qwen-plus-0714)
qwen-plus-2025-04-28 (qwen-plus-0428)
qwen-plus-2025-01-25 (qwen-plus-0125)
qwen-flash	600	5,000,000
qwen-flash-2025-07-28	600	5,000,000
qwq-plus	60	100,000
qwen-turbo	600	5,000,000
qwen-turbo-latest	60
qwen-turbo-2025-04-28 (qwen-turbo-0428)
qwen-turbo-2024-11-01 (qwen-turbo-1101)

通义千问Omni

中国大陆（北京）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-omni-flash	60	100,000
qwen3-omni-flash-2025-09-15
qwen-omni-turbo
qwen-omni-turbo-latest
qwen-omni-turbo-2025-03-26 （qwen-omni-turbo-0326）
qwen-omni-turbo-2025-01-19 （qwen-omni-turbo-0119）

国际（新加坡）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-omni-flash	60	100,000
qwen3-omni-flash-2025-09-15
qwen-omni-turbo
qwen-omni-turbo-latest
qwen-omni-turbo-2025-03-26

通义千问Omni-Realtime

中国大陆（北京）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-omni-flash-realtime	60	100,000
qwen3-omni-flash-realtime-2025-09-15
qwen-omni-turbo-realtime-latest
qwen-omni-turbo-realtime-2025-05-08

国际（新加坡）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-omni-flash-realtime	60	100,000
qwen3-omni-flash-realtime-2025-09-15
qwen-omni-turbo-realtime
qwen-omni-turbo-realtime-latest
qwen-omni-turbo-realtime-2025-05-08

通义千问VL（视觉理解/图生文）

中国大陆（北京）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qvq-max	60	100,000
qvq-max-latest
qvq-max-2025-05-15 （qvq-max-0515）
qvq-max-2025-03-25 （qvq-max-0325）
qvq-plus
qvq-plus-latest
qvq-plus-2025-05-15 （qvq-plus-0515）
qwen-vl-max	1,200	1,000,000
qwen-vl-max-latest	1,200	1,000,000
qwen-vl-max-2025-08-13 （qwen-vl-max-0813）	60	100,000
qwen-vl-max-2025-04-08 （qwen-vl-max-0408）
qwen-vl-max-2025-04-02 （qwen-vl-max-0402）
qwen-vl-max-2025-01-25 （qwen-vl-max-0125）
qwen-vl-max-2024-12-30 （qwen-vl-max-1230）
qwen-vl-max-2024-11-19 （qwen-vl-max-1119）
qwen-vl-max-2024-10-30 （qwen-vl-max-1030）
qwen-vl-max-2024-08-09 （qwen-vl-max-0809）	15	25,000
qwen3-vl-plus	1,200	1,000,000
qwen-vl-plus
qwen-vl-plus-latest
qwen3-vl-plus-2025-09-23	60	100,000
qwen-vl-plus-2025-08-15 （qwen-vl-plus-0815）
qwen-vl-plus-2025-07-10 （qwen-vl-plus-0710）
qwen-vl-plus-2025-05-07 （qwen-vl-plus-0507）
qwen-vl-plus-2025-01-25 （qwen-vl-plus-0125）
qwen-vl-plus-2025-01-02 （qwen-vl-plus-0102）
qwen-vl-plus-2024-08-09 （qwen-vl-plus-0809）
qwen3-vl-flash	1,200	1,000,000
qwen3-vl-flash-2025-10-15	60	100,000

国际（新加坡）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qvq-max	60	100,000
qvq-max-latest
qvq-max-2025-03-25 (qvq-max-0325)
qwen-vl-max	1,200	1,000,000
qwen-vl-max-latest	1,200	1,000,000
qwen-vl-max-2025-08-13 (qwen-vl-max-0813)	60	100,000
qwen-vl-max-2025-04-08 (qwen-vl-max-0408)	1,200	1,000,000
qwen3-vl-plus
qwen-vl-plus
qwen-vl-plus-latest
qwen3-vl-plus-2025-09-23	60	100,000
qwen-vl-plus-2025-08-15 (qwen-vl-plus-0815)	120	1,000,000
qwen-vl-plus-2025-05-07 (qwen-vl-plus-0507)	120
qwen-vl-plus-2025-01-25 (qwen-vl-plus-0125)	1,200
qwen3-vl-flash	1,200	1,000,000
qwen3-vl-flash-2025-10-15	120	1,000,000

通义千问OCR（文字提取）

中国大陆（北京）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-vl-ocr	600	6,000,000
qwen-vl-ocr-latest
qwen-vl-ocr-2025-08-28
qwen-vl-ocr-2025-04-13
qwen-vl-ocr-2024-10-28

国际（新加坡）

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen-vl-ocr

600

6,000,000

通义千问Audio（音频理解）

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-audio-turbo	120	100,000
qwen-audio-turbo-latest	60
qwen-audio-turbo-2024-12-04
qwen-audio-turbo-2024-08-07	120

通义千问ASR（语音识别）

中国大陆（北京）

Qwen3-ASR

模型名称	每分钟调用次数（RPM）
qwen3-asr-flash	60
qwen3-asr-flash-2025-09-08	60

Qwen-Audio-ASR

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-audio-asr	60	100,000
qwen-audio-asr-latest
qwen-audio-asr-2024-12-04

国际（新加坡）

模型名称	每分钟调用次数（RPM）
qwen3-asr-flash	60
qwen3-asr-flash-2025-09-08	60

通义千问ASR-Realtime（实时语音识别）

中国大陆（北京）

模型名称	每秒钟调用次数（RPS）
qwen3-asr-flash-realtime	20
qwen3-asr-flash-realtime-2025-10-27	20

国际（新加坡）

模型名称	每秒钟调用次数（RPS）
qwen3-asr-flash-realtime	20
qwen3-asr-flash-realtime-2025-10-27	20

通义千问数学模型

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-math-plus	1,200	1,000,000
qwen-math-plus-latest	1,200	1,000,000
qwen-math-plus-2024-09-19 （qwen-math-plus-0919）	60	100,000
qwen-math-plus-2024-08-16 （qwen-math-plus-0816）	10	20,000
qwen-math-turbo	1200	1,000,000
qwen-math-turbo-latest	1200	1,000,000
qwen-math-turbo-2024-09-19 （qwen-math-turbo-0919）	60	100,000

通义千问Coder

中国大陆（北京）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-coder-plus	2,400	2,000,000
qwen3-coder-plus-2025-09-23	60	1,000,000
qwen3-coder-plus-2025-07-22	60
qwen3-coder-flash	1200
qwen3-coder-flash-2025-07-28	60
qwen-coder-plus	1,200
qwen-coder-plus-latest	1,200
qwen-coder-plus-2024-11-06 （qwen-coder-plus-1106）	60	100,000
qwen-coder-turbo	1,200	1,000,000
qwen-coder-turbo-latest	1,200	1,000,000
qwen-coder-turbo-2024-09-19 （qwen-coder-turbo-0919）	60	100,000

国际（新加坡）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-coder-plus	2,400	2,000,000
qwen3-coder-plus-2025-09-23	60	1,000,000
qwen3-coder-plus-2025-07-22	60	1,000,000
qwen3-coder-flash	600	5,000,000
qwen3-coder-flash-2025-07-28	600	5,000,000

通义千问翻译模型

中国大陆（北京）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-mt-plus	60	25,000
qwen-mt-turbo		35,000

国际（新加坡）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-mt-plus	60	100,000
qwen-mt-turbo

通义千问数据挖掘模型

说明

仅支持中国大陆（北京）地域。

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen-doc-turbo

600

3,000,000

通义千问深入研究模型

说明

仅支持中国大陆（北京）地域。

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen-deep-research

120

1,200,000

文本生成-通义千问-开源版

通义千问语言模型开源版

中国大陆（北京）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-next-80b-a3b-thinking	600	1,000,000
qwen3-next-80b-a3b-instruct
qwen3-235b-a22b-thinking-2507
qwen3-235b-a22b-instruct-2507
qwen3-30b-a3b-thinking-2507
qwen3-30b-a3b-instruct-2507
qwen3-235b-a22b
qwen3-30b-a3b
qwen3-32b
qwen3-14b
qwen3-8b
qwen3-4b
qwen3-1.7b
qwen3-0.6b
qwq-32b
qwq-32b-preview	1,200
qwen2.5-72b-instruct
qwen2.5-32b-instruct
qwen2.5-14b-instruct
qwen2.5-14b-instruct-1m
qwen2.5-7b-instruct
qwen2.5-7b-instruct-1m
qwen2.5-3b-instruct		2,000,000
qwen2.5-1.5b-instruct
qwen2.5-0.5b-instruct
qwen2-72b-instruct	60	150,000
qwen2-57b-a14b-instruct
qwen2-7b-instruct
qwen2-1.5b-instruct		2,000,000
qwen2-0.5b-instruct		2,000,000
qwen1.5-110b-chat	10	20,000
qwen1.5-72b-chat	120	200,000
qwen1.5-32b-chat	10	20,000
qwen1.5-14b-chat	120	200,000
qwen1.5-7b-chat	120	200,000

国际（新加坡）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-next-80b-a3b-thinking	600	1,000,000
qwen3-next-80b-a3b-instruct
qwen3-235b-a22b-thinking-2507
qwen3-235b-a22b-instruct-2507
qwen3-30b-a3b-thinking-2507
qwen3-30b-a3b-instruct-2507
qwen3-235b-a22b
qwen3-32b
qwen3-30b-a3b
qwen3-14b
qwen3-8b
qwen3-4b
qwen3-1.7b
qwen3-0.6b
qwen2.5-14b-instruct-1m	60	1,000,000
qwen2.5-7b-instruct-1m		1,000,000
qwen2.5-72b-instruct		100,000
qwen2.5-32b-instruct
qwen2.5-14b-instruct
qwen2.5-7b-instruct

Qwen-Omni

中国大陆（北京）

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen2.5-omni-7b

100,000

国际（新加坡）

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen2.5-omni-7b

100,000

Qwen3-Omni-Captioner

中国大陆（北京）

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen3-omni-30b-a3b-captioner

100,000

国际（新加坡）

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen3-omni-30b-a3b-captioner

100,000

Qwen-VL

中国大陆（北京）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-vl-32b-thinking	600	1,000,000
qwen3-vl-32b-instruct
qwen3-vl-30b-a3b-thinking
qwen3-vl-30b-a3b-instruct
qwen3-vl-8b-thinking
qwen3-vl-8b-instruct
qwen3-vl-235b-a22b-thinking	60	100,000
qwen3-vl-235b-a22b-instruct
qwen2.5-vl-72b-instruct
qwen2.5-vl-32b-instruct
qwen2.5-vl-7b-instruct	1,200	1,000,000
qwen2.5-vl-3b-instruct
qwen2-vl-72b-instruct	60	100,000
qwen2-vl-7b-instruct	1,200	1,000,000
qwen2-vl-2b-instruct
qwen-vl-v1	60	10,000
qwen-vl-chat-v1
qvq-72b-preview	60	100,000

国际（新加坡）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-vl-32b-thinking	60	100,000
qwen3-vl-32b-instruct
qwen3-vl-30b-a3b-thinking
qwen3-vl-30b-a3b-instruct
qwen3-vl-8b-thinking
qwen3-vl-8b-instruct
qwen3-vl-235b-a22b-thinking
qwen3-vl-235b-a22b-instruct
qwen2.5-vl-72b-instruct
qwen2.5-vl-32b-instruct
qwen2.5-vl-7b-instruct
qwen2.5-vl-3b-instruct

Qwen-Audio

说明

仅支持中国大陆（北京）地域。

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen-audio-chat

120

100,000

Qwen-Math

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen2.5-math-72b-instruct	1,200	1,000,000
qwen2.5-math-7b-instruct
qwen2.5-math-1.5b-instruct

Qwen-Coder

中国大陆（北京）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-coder-480b-a35b-instruct	600	1,000,000
qwen3-coder-30b-a3b-instruct	600
qwen2.5-coder-32b-instruct	1,200
qwen2.5-coder-14b-instruct
qwen2.5-coder-7b-instruct
qwen2.5-coder-3b-instruct		2,000,000
qwen2.5-coder-1.5b-instruct
qwen2.5-coder-0.5b-instruct

国际（新加坡）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-coder-480b-a35b-instruct	600	1,000,000
qwen3-coder-30b-a3b-instruct	600	1,000,000

文本生成-第三方模型

DeepSeek

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
deepseek-v3.2-exp	15,000	1,200,000
deepseek-v3.1
deepseek-r1-0528	60	100,000
deepseek-r1	15,000	1,200,000
deepseek-v3
deepseek-r1-distill-qwen-7b
deepseek-r1-distill-qwen-14b
deepseek-r1-distill-qwen-32b
deepseek-r1-distill-qwen-1.5b	60	100,000
deepseek-r1-distill-llama-8b
deepseek-r1-distill-llama-70b

Kimi

说明

仅支持中国大陆（北京）地域。

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

Moonshot-Kimi-K2-Instruct

100,000

GLM

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
glm-4.6	60	1,000,000
glm-4.5
glm-4.5-air

Llama

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
llama-4-maverick-17b-128e-instruct	10	20,000
llama-4-scout-17b-16e-instruct

百川

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
baichuan2-turbo-192k	60	100,000
baichuan2-turbo

MiniMax

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
abab6.5s-chat	60	100,000
abab6.5t-chat
abab6.5g-chat

图像生成

通义千问（Qwen-Image）

中国大陆（北京）

模型名称	模型名称	限流条件（超出任一数值时触发限流）
模型名称	模型名称	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
文生图	qwen-image-plus	2	2
文生图	qwen-image	2	2
图像编辑	qwen-image-edit-plus	2	同步接口无限制
	qwen-image-edit-plus-2025-10-30	2	同步接口无限制
	qwen-image-edit	2	同步接口无限制
图像翻译	qwen-mt-image	1	2

国际（新加坡）

模型服务	模型名称	限流条件（超出任一数值时触发限流）
模型服务	模型名称	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
文生图	qwen-image-plus	2	2
文生图	qwen-image	2	2
图像编辑	qwen-image-edit-plus	2	同步接口无限制
	qwen-image-edit-plus-2025-10-30	2	同步接口无限制
	qwen-image-edit	2	同步接口无限制

通义万相

中国大陆（北京）

模型服务	模型名称	限流条件（超出任一数值时触发限流）
模型服务	模型名称	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
文生图	wan2.5-t2i-preview	5	5
	wan2.2-t2i-plus	2	2
	wan2.2-t2i-flash
	wanx2.1-t2i-plus
	wanx2.1-t2i-turbo
	wanx2.0-t2i-turbo
通用图像编辑	wan2.5-i2i-preview	5	5
通用图像编辑	wanx2.1-imageedit	2	2
文生图	wanx-v1	2	1
图像局部重绘	wanx-x-painting
涂鸦作画	wanx-sketch-to-image-lite

国际（新加坡）

模型服务	模型名称	限流条件（超出任一数值时触发限流）
		每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
文生图	wan2.5-t2i-preview	5	5
	wan2.2-t2i-flash	2	2
	wan2.2-t2i-plus
	wan2.1-t2i-turbo
	wan2.1-t2i-plus
通用图像编辑	wan2.5-i2i-preview	5	5

图像编辑与生成

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件（超出任一数值时触发限流）
模型名称	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
shoemodel-v1	2	1
wanx-virtualmodel
wanx-style-repaint-v1
image-out-painting
wanx-poster-generation-v1
virtualmodel-v2
wanx-background-generation-v2
image-instance-segmentation
image-erase-completion

人物写真生成-FaceChain

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件（超出任一数值时触发限流）
	作业提交接口RPS限制	同时处理中任务数量
facechain-facedetect	5	同步接口无限制
facechain-finetune	2	1
facechain-generation

创意文字生成-WordArt锦书

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件（超出任一数值时触发限流）
	作业提交接口RPS限制	同时处理中任务数量
wordart-texture	2	1
wordart-semantic

AI试衣-OutfitAnyone

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件（超出任一数值时触发限流）
模型名称	作业提交接口RPS限制	同时处理中任务数量
aitryon	10	5
aitryon-plus	10	5
aitryon-parsing-v1	10	同步接口无限制
aitryon-refiner	10	5

图像生成-第三方模型

StableDiffusion文生图模型

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件（超出任一数值时触发限流）
	作业提交接口RPS限制	同时处理中任务数量
stable-diffusion-3.5-large	2	1 在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。
stable-diffusion-3.5-large-turbo
stable-diffusion-xl
stable-diffusion-v1.5

FLUX文生图模型

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件（超出任一数值时触发限流）
	作业提交接口RPS限制	同时处理中任务数量
flux-merged	2	1 在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。
flux-dev
flux-schnell

语音合成（文本转语音）

Qwen-TTS语音合成

中国大陆（北京）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-tts-flash	10	无TPM限制
qwen3-tts-flash-2025-09-18
qwen-tts		100,000
qwen-tts-latest
qwen-tts-2025-05-22
qwen-tts-2025-04-10

国际（新加坡）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-tts-flash	10	无TPM限制
qwen3-tts-flash-2025-09-18

Qwen-TTS-Realtime语音合成

中国大陆（北京）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-tts-flash-realtime	10	无TPM限制
qwen3-tts-flash-realtime-2025-09-18
qwen-tts-realtime		100,000
qwen-tts-realtime-latest
qwen-tts-realtime-2025-07-15

国际（新加坡）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-tts-flash-realtime	10	无TPM限制
qwen3-tts-flash-realtime-2025-09-18

CosyVoice

说明

仅支持中国大陆（北京）地域。

语音合成

模型名称	提交作业接口RPS限制
cosyvoice-v3-plus	3
cosyvoice-v3
cosyvoice-v2
cosyvoice-v1

声音复刻

模型名称	提交作业接口RPS限制
cosyvoice-v3-plus	10 无论声音复刻功能是单独调用某一模型版本，还是同时调用多个模型版本，其总并发请求数均限制为 10 RPS。这意味着：如果您仅调用 v2，则其最大并发请求为 10 RPS。如果您同时调用 v2 和 v3，两者的请求总和不能超过 10 RPS（例如，v2 使用 7 RPS，则 v3 最多只能使用 3 RPS）。
cosyvoice-v3
cosyvoice-v2
cosyvoice-v1

Sambert语音合成

说明

仅支持中国大陆（北京）地域。

模型服务	提交作业接口RPS限制
Sambert系列模型	20

语音识别（语音转文本）与翻译（语音转成指定语种的文本）

通义千问3-LiveTranslate-Flash-Realtime

中国大陆（北京）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-livetranslate-flash-realtime	10	100,000
qwen3-livetranslate-flash-realtime-2025-09-22

国际（新加坡）

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-livetranslate-flash-realtime	10	100,000
qwen3-livetranslate-flash-realtime-2025-09-22

Gummy语音识别/翻译

说明

仅支持中国大陆（北京）地域。

模型名称	提交作业接口RPS限制
gummy-realtime-v1	10
gummy-chat-v1	10

Fun-ASR录音文件识别

中国大陆（北京）

模型名称	提交作业接口RPS限制	任务查询接口RPS限制
fun-asr	10	20
fun-asr-2025-08-25
fun-asr-mtl
fun-asr-mtl-2025-08-25

国际（新加坡）

模型名称	提交作业接口RPS限制	任务查询接口RPS限制
fun-asr	10	20
fun-asr-2025-08-25	10	20

Fun-ASR实时语音识别

说明

仅支持中国大陆（北京）地域。

模型名称	提交作业接口RPS限制
fun-asr-realtime	20
fun-asr-realtime-2025-09-15	20

Paraformer语音识别

说明

仅支持中国大陆（北京）地域。

模型名称	提交作业接口RPS限制
paraformer-realtime-v2	20
paraformer-realtime-v1
paraformer-realtime-8k-v2
paraformer-realtime-8k-v1

模型名称	提交作业接口RPS限制	任务查询接口RPS限制
paraformer-v2	20	20
paraformer-v1	10
paraformer-8k-v2	20
paraformer-8k-v1	10
paraformer-mtl-v1	10

SenseVoice语音识别

说明

仅支持中国大陆（北京）地域。

模型名称	提交作业接口RPS限制	任务查询接口RPS限制
sensevoice-v1	10	20

视频生成

通义万相系列

中国大陆（北京）

模型服务	模型名称	限流条件（超出任一数值时触发限流）
模型服务	模型名称	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
文生视频	wan2.5-t2v-preview	5	5
	wan2.2-t2v-plus	2	2
	wanx2.1-t2v-turbo
	wanx2.1-t2v-plus
图生视频-基于首帧	wan2.5-i2v-preview	5	5
	wan2.2-i2v-flash	2	2
	wan2.2-i2v-plus
	wanx2.1-i2v-turbo
	wanx2.1-i2v-plus
图生视频-基于首尾帧	wan2.2-kf2v-flash
图生视频-基于首尾帧	wanx2.1-kf2v-plus
通用视频编辑	wanx2.1-vace-plus
数字人s2v	wan2.2-s2v-detect	5	同步接口无限制
数字人s2v	wan2.2-s2v	5	1
图生动作	wan2.2-animate-move	5	1
视频换人	wan2.2-animate-mix	5	1

国际（新加坡）

模型服务	模型名称	限流条件（超出任一数值时触发限流）
		每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
文生视频	wan2.5-t2v-preview	5	5
	wan2.2-t2v-plus	2	2
	wan2.1-t2v-turbo
	wan2.1-t2v-plus
图生视频-基于首帧	wan2.5-i2v-preview	5	5
	wan2.2-i2v-plus	2	2
	wan2.1-i2v-turbo
	wan2.1-i2v-plus
图生视频-基于首尾帧	wan2.1-kf2v-plus
通用视频编辑	wan2.1-vace-plus

舞动人像AnimateAnyone

说明

仅支持中国大陆（北京）地域。

模型名称	任务下发接口RPS限制	同时处理中任务数量
animate-anyone-detect-gen2	5	同步接口无限制
animate-anyone-template-gen2		1 在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。
animate-anyone-gen2		1 在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。
animate-anyone-detect		1算力单元支持2并发
animate-anyone		1算力单元支持1并发

悦动人像EMO

说明

仅支持中国大陆（北京）地域。

模型名称

任务下发接口RPS限制

同时处理中任务数量

emo-detect-v1

同步接口无限制

emo-v1

在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。

灵动人像LivePortrait

说明

仅支持中国大陆（北京）地域。

模型名称

任务下发接口RPS限制

同时处理中任务数量

liveportrait-detect

同步接口无限制

liveportrait

在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。

声动人像VideoRetalk

说明

仅支持中国大陆（北京）地域。

模型名称

任务下发接口RPS限制

同时处理中任务数量

videoretalk

在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。

表情包Emoji

说明

仅支持中国大陆（北京）地域。

模型名称

任务下发接口RPS限制

同时处理中任务数量

emoji-detect-v1

同步接口无限制

emoji-v1

在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。

视频风格重绘

说明

仅支持中国大陆（北京）地域。

模型名称

任务下发接口RPS限制

同时处理中任务数量

video-style-transform

在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。

向量模型

文本向量

中国大陆（北京）

模型名称	限流条件（超出任一数值时触发限流）
	每秒钟调用次数（RPS）	每分钟消耗Token数（TPM）/作业数仅输入Token
text-embedding-v1	30	1,200,000
text-embedding-v2
text-embedding-v3
text-embedding-v4
text-embedding-async-v1	1	当前用户在系统通用文本向量异步作业排队中和运行中的作业数量不超过50个。另外，为了避免大量突发的作业占据太多资源，限制并发的作业数为3个，即任意时间，单个用户最多只有3个通用文本向量的异步作业在并发运行，其他的作业只能在队列中等待。
text-embedding-async-v2

国际（新加坡）

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）/作业数

含输入与输出Token

text-embedding-v3

6,000

24,000,000

多模态向量

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）仅输入Token
qwen2.5-vl-embedding	1,200	600,000
tongyi-embedding-vision-plus	600	200,000
tongyi-embedding-vision-flash	600
multimodal-embedding-v1	120

文本分类、抽取、排序

OpenNLU

说明

仅支持中国大陆（北京）地域。

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

opennlu-v1

10,000

文本排序模型

说明

仅支持中国大陆（北京）地域。

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-rerank	5,400	5,000,000,000
gte-rerank-v2	5,040	4,980,000,000

行业

通义法睿（法律模型）

说明

仅支持中国大陆（北京）地域。

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

farui-plus

120

500,000

意图理解

说明

仅支持中国大陆（北京）地域。

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

tongyi-intent-detect-v3

1,200

1,000,000

角色扮演

中国大陆（北京）

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen-plus-character

120

20,000

国际（新加坡）

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen-plus-character-ja

100,000

已下线模型

详细信息，请参见模型下线机制说明。

2025年7月30日下线

类别	模型名称	限流条件（超出任一数值时触发限流）
		每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
通义千问VL	qwen-vl-plus-2023-12-01	0	0
零一万物	yi-large
	yi-medium
	yi-large-rag
	yi-large-turbo
Dolly	dolly-12b-v2

2025年7月2日下线

类别	模型名称	限流条件（超出任一数值时触发限流）
类别	模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
Llama-仅文本输入	llama3.3-70b-instruct	0	0
	llama3.2-3b-instruct
	llama3.2-1b-instruct
	llama3.1-405b-instruct
	llama3.1-70b-instruct
	llama3.1-8b-instruct
	llama3-70b-instruct
	llama3-8b-instruct
	llama2-13b-chat-v2
	llama2-7b-chat-v2
Llama-文本和图像输入	llama3.2-90b-vision-instruct
Llama-文本和图像输入	llama3.2-11b-vision
百川-开源版	baichuan2-13b-chat-v1
	baichuan2-7b-chat-v1
	baichuan-7b-v1
ChatGLM	chatglm3-6b
ChatGLM	chatglm-6b-v2
姜子牙	ziya-llama-13b-v1
BELLE	belle-llama-13b-2m-v1
元语	chatyuan-large-v2
BiLLa	billa-7b-sft-v1

类别	模型名称	限流条件（超出任一数值时触发限流）
		每秒钟任务下发接口RPS限制	同时处理中任务数量
动漫人物生成	wanx-style-cosplay-v1	0	0
图配文	wanx-ast
创意文字生成-WordArt锦书	wordart-surnames
AnyText图文融合	wanx-anytext-v1

2025年5月8日下线

类别	模型名称	限流条件（超出任一数值时触发限流）		替代模型
类别	模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token	替代模型
文本生成-通义千问	qwen-max-2024-01-07 （qwen-max-0107）	0	0	qwen-max
	qwen-plus-2024-06-24 （qwen-plus-0624）			qwen-plus
	qwen-plus-2024-02-06 （qwen-plus-0206）			qwen-plus
	qwen-turbo-2024-02-06 （qwen-turbo-0206）			qwen-turbo
	qwen-vl-max-2024-02-01 （qwen-vl-max-0201）			qwen-vl-max
文本生成-通义千问-开源版	qwen-72b-chat			qwen2.5-72b-instruct
	qwen-14b-chat			qwen2.5-14b-instruct
	qwen-7b-chat			qwen2.5-7b-instruct
	qwen-1.8b-chat			qwen2.5-1.5b-instruct
	qwen-1.8b-longcontext-chat			qwen2.5-1.5b-instruct
	qwen2-math-72b-instruct			qwen2.5-math-72b-instruct
	qwen2-math-7b-instruct			qwen2.5-math-7b-instruct
	qwen2-math-1.5b-instruct			qwen2.5-math-1.5b-instruct

类别	模型名称	限流条件（超出任一数值时触发限流）		替代模型
		任务下发接口RPS限制	同时处理中任务数量
幻影人像Motionshop视频生成模型	motionshop-video-detect	0	0	使用animate-anyone-gen2的“按视频背景生成”功能，可达到近似效果
	motionshop-gen3d
	motionshop-synthesis