限流

为了保证用户调用模型的公平性,阿里云百炼设置了基础限流。限流基于模型维度且与用户的阿里云主账号相关联,按照该账号下所有API-KEY调用该模型的总和计算限流。若超出限制,API请求将会失败,需等到解除限流条件时再次调用。

限流规则

  • 主账号维度:按主账号下,所有子账号、所有业务空间、所有API-KEY的调用总和计算。

  • 不同模型独立限流:具体参见下方表格。

限流FAQ

为什么触发限流?

  1. 根据错误信息判断

    • Requests rate limit exceededYou exceeded your current requests list:表示调用频率触发限流。

    • Allocated quota exceededYou exceeded your current quota:表示Token消耗触发限流。

    • 其他报错请参考错误信息确认原因。

  2. 按秒限制:除了RPM(Requests Per Minute,每分钟请求数)和TPM,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制。

如需查看监控,可通过模型观测页面查看调用统计。需注意该页面数据延迟1-2小时。

遇到限流后多久恢复?

通常在一分钟内恢复。若出现其他报错,请根据错误信息进行解决。

如何避免限流?

  1. 选用高限流模型

    • 优先使用 qwen-plus 等限流宽松的模型。

    • 稳定版或最新版比带日期的快照版本限流更宽松。

  2. 优化调用策略

    • 调整调用频率:触发Requests rate limit exceededYou exceeded your current requests list时,降低调用频率。

    • 减少Token消耗:触发Allocated quota exceededYou exceeded your current quota时,缩短输入或输出长度。

  3. 添加备选模型

    建议您在遇到限流报错后切换到备用模型继续生成,提升并发并降低失败概率。以下代码展示了调用 qwen-plus-2025-07-28 触发限流,改用 qwen-plus-2025-07-14 重发请求的示例。

    示例代码

    import os
    import asyncio
    from openai import AsyncOpenAI, APIStatusError
    
    # 配置
    API_KEY = os.getenv("DASHSCOPE_API_KEY")
    # 主用模型
    MODEL = "qwen-plus-2025-07-28"
    # 备选模型
    BACKUP_MODEL = "qwen-plus-2025-07-14"
    # 测试问题
    QUESTION = "你是谁?"
    # 并发设置
    NUM_REQUESTS = 10
    
    client = AsyncOpenAI(
        api_key=API_KEY,
        base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
    )
    
    async def send_request(model):
        """发送单个请求"""
        try:
            await client.chat.completions.create(
                model=model,
                messages=[{"role": "user", "content": QUESTION}]
            )
            return True
        except APIStatusError as e:
            if e.status_code == 429:
                print(f"[限流触发] 模型 {model}")
                return False
            raise
        except Exception as e:
            print(f"[请求失败] 模型 {model},错误:{e}")
            return False
    
    async def task(i):
        # 尝试主模型
        if await send_request(MODEL):
            return True
        # 限流时尝试备用模型
        return await send_request(BACKUP_MODEL)
    
    async def main():
        results = await asyncio.gather(*(task(i) for i in range(NUM_REQUESTS)))
        print(f"成功请求: {sum(results)}, 失败请求: {len(results) - sum(results)}")
    
    if __name__ == "__main__":
        asyncio.run(main())
  4. 任务拆分:将大批量任务拆分为小批次,在不同时间段提交。

  5. 批量推理:如果无需实时返回结果,可使用批量推理(Batch API),不受实时限流约束,但需考虑排队和处理时间。

文本生成

通义千问

通义千问语言模型

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen-max

Batch API调用服务时,不受限流限制。

1,200

1,000,000

qwen-max-latest

qwen-max-2025-01-25

(qwen-max-0125)

60

100,000

qwen-max-2024-09-19

(qwen-max-0919)

qwen-max-2024-04-28

(qwen-max-0428)

qwen-max-2024-04-03

(qwen-max-0403)

qwen-plus

Batch API调用服务时,不受限流限制。

15,000

1,200,000

qwen-plus-latest

qwen-plus-2025-07-28

(qwen-plus-0728)

60

1,000,000

qwen-plus-2025-07-14

(qwen-plus-0714)

100,000

qwen-plus-2025-04-28

(qwen-plus-0428)

1,000,000

qwen-plus-2025-01-25

(qwen-plus-0125)

150,000

qwen-plus-2025-01-12

(qwen-plus-0112)

qwen-plus-2024-12-20

(qwen-plus-1220)

qwen-plus-2024-11-27

(qwen-plus-1127)

qwen-plus-2024-11-25

(qwen-plus-1125)

qwen-plus-2024-09-19

(qwen-plus-0919)

qwen-plus-2024-08-06

(qwen-plus-0806)

qwen-plus-2024-07-23

(qwen-plus-0723)

60,000

qwen-flash

1200

5,000,000

qwen-flash-2025-07-28

60

1,000,000

qwen-turbo

Batch API调用服务时,不受限流限制。

1,200

5,000,000

qwen-turbo-latest

qwen-turbo-2025-07-15

(qwen-turbo-0715)

60

100,000

qwen-turbo-2025-04-28

(qwen-turbo-0428)

1,000,000

qwen-turbo-2025-02-11

(qwen-turbo-0211)

5,000,000

qwen-turbo-2024-11-01

(qwen-turbo-1101)

qwen-turbo-2024-09-19

(qwen-turbo-0919)

150,000

qwen-turbo-2024-06-24

(qwen-turbo-0624)

qwq-plus

600

1,000,000

qwq-plus-latest

qwq-plus-2025-03-05

60

100,000

qwen-long

1,200

3,000,000

qwen-long-latest

60,000

qwen-long-2025-01-25

(qwen-long-0125)

3

7,500

通义千问数学模型

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen-math-plus

1,200

1,000,000

qwen-math-plus-latest

qwen-math-plus-2024-09-19

(qwen-math-plus-0919)

60

100,000

qwen-math-plus-2024-08-16

(qwen-math-plus-0816)

10

20,000

qwen-math-turbo

1200

1,000,000

qwen-math-turbo-latest

qwen-math-turbo-2024-09-19

(qwen-math-turbo-0919)

60

100,000

通义千问代码模型

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen3-coder-plus

2,400

2,000,000

qwen3-coder-plus-2025-07-22

60

1,000,000

qwen3-coder-flash

1200

qwen3-coder-flash-2025-07-28

60

qwen-coder-plus

1,200

qwen-coder-plus-latest

qwen-coder-plus-2024-11-06

(qwen-coder-plus-1106)

60

100,000

qwen-coder-turbo

1,200

1,000,000

qwen-coder-turbo-latest

qwen-coder-turbo-2024-09-19

(qwen-coder-turbo-0919)

60

100,000

通义千问翻译模型

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen-mt-plus

60

23,797

qwen-mt-turbo

31,980

通义千问数据挖掘模型

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen-doc-turbo

600

3,000,000

通义千问深入研究模型

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen-deep-research

120

1,200,000

通义千问Omni(全模态)

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen-omni-turbo

60

100,000

qwen-omni-turbo-latest

qwen-omni-turbo-2025-03-26

(qwen-omni-turbo-0326)

qwen-omni-turbo-2025-01-19

(qwen-omni-turbo-0119)

通义千问Omni-Realtime

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen-omni-turbo-realtime

60

100,000

qwen-omni-turbo-realtime-latest

qwen-omni-turbo-realtime-2025-05-08

通义千问VL(视觉理解/图生文)

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qvq-max

60

100,000

qvq-max-latest

qvq-max-2025-05-15

(qvq-max-0515)

qvq-max-2025-03-25

(qvq-max-0325)

qvq-plus

qvq-plus-latest

qvq-plus-2025-05-15

(qvq-plus-0515)

qwen-vl-max

1,200

1,000,000

qwen-vl-max-latest

qwen-vl-max-2025-08-13

(qwen-vl-max-0813)

60

100,000

qwen-vl-max-2025-04-08

(qwen-vl-max-0408)

qwen-vl-max-2025-04-02

(qwen-vl-max-0402)

qwen-vl-max-2025-01-25

(qwen-vl-max-0125)

qwen-vl-max-2024-12-30

(qwen-vl-max-1230)

qwen-vl-max-2024-11-19

(qwen-vl-max-1119)

qwen-vl-max-2024-10-30

(qwen-vl-max-1030)

qwen-vl-max-2024-08-09

(qwen-vl-max-0809)

15

25,000

qwen-vl-plus

1,200

1,000,000

qwen-vl-plus-latest

qwen-vl-plus-2025-08-15

(qwen-vl-plus-0815)

60

100,000

qwen-vl-plus-2025-07-10

(qwen-vl-plus-0710)

qwen-vl-plus-2025-05-07

(qwen-vl-plus-0507)

qwen-vl-plus-2025-01-25

(qwen-vl-plus-0125)

qwen-vl-plus-2025-01-02

(qwen-vl-plus-0102)

qwen-vl-plus-2024-08-09

(qwen-vl-plus-0809)

通义千问OCR(文字提取)

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen-vl-ocr

600

6,000,000

qwen-vl-ocr-latest

qwen-vl-ocr-2025-04-13

qwen-vl-ocr-2024-10-28

通义千问Audio(音频理解)

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen-audio-turbo

120

100,000

qwen-audio-turbo-latest

60

qwen-audio-turbo-2024-12-04

qwen-audio-turbo-2024-08-07

120

通义千问ASR(Beta版本)(语音识别)

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen-audio-asr

60

100,000

qwen-audio-asr-latest

qwen-audio-asr-2024-12-04

通义千问开源版

通义千问语言模型开源版

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen3-235b-a22b-thinking-2507

600

1,000,000

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-30b-a3b

qwen3-32b

qwen3-14b

qwen3-8b

qwen3-4b

qwen3-1.7b

qwen3-0.6b

qwq-32b

qwq-32b-preview

1,200

qwen2.5-72b-instruct

qwen2.5-32b-instruct

qwen2.5-14b-instruct

qwen2.5-14b-instruct-1m

qwen2.5-7b-instruct

qwen2.5-7b-instruct-1m

qwen2.5-3b-instruct

2,000,000

qwen2.5-1.5b-instruct

qwen2.5-0.5b-instruct

qwen2-72b-instruct

60

150,000

qwen2-57b-a14b-instruct

qwen2-7b-instruct

qwen2-1.5b-instruct

2,000,000

qwen2-0.5b-instruct

qwen1.5-110b-chat

10

20,000

qwen1.5-72b-chat

120

200,000

qwen1.5-32b-chat

10

20,000

qwen1.5-14b-chat

120

200,000

qwen1.5-7b-chat

通义千问数学模型开源版

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen2.5-math-72b-instruct

1,200

1,000,000

qwen2.5-math-7b-instruct

qwen2.5-math-1.5b-instruct

通义千问代码模型开源版

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen3-coder-480b-a35b-instruct

600

1,000,000

qwen3-coder-30b-a3b-instruct

600

qwen2.5-coder-32b-instruct

1,200

qwen2.5-coder-14b-instruct

qwen2.5-coder-7b-instruct

qwen2.5-coder-3b-instruct

2,000,000

qwen2.5-coder-1.5b-instruct

qwen2.5-coder-0.5b-instruct

通义千问VL开源版(视觉理解/图生文)

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qvq-72b-preview

60

100,000

qwen2.5-vl-72b-instruct

qwen2.5-vl-32b-instruct

qwen2.5-vl-7b-instruct

1,200

1,000,000

qwen2.5-vl-3b-instruct

qwen2-vl-72b-instruct

60

100,000

qwen2-vl-7b-instruct

1,200

1,000,000

qwen2-vl-2b-instruct

qwen-vl-v1

60

10,000

qwen-vl-chat-v1

通义千问Omni(全模态)

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen2.5-omni-7b

60

100,000

通义千问Audio开源版(音频理解)

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen-audio-chat

120

100,000

通义法睿(法律模型

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

farui-plus

120

500,000

通义千问角色扮演模型

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen-plus-character

120

20,000

意图理解模型

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

tongyi-intent-detect-v3

1,200

1,000,000

文本生成-第三方模型

DeepSeek

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

deepseek-v3.1

15,000

1,200,000

deepseek-r1-0528

60

100,000

deepseek-r1

15,000

1,200,000

deepseek-v3

deepseek-r1-distill-qwen-7b

deepseek-r1-distill-qwen-14b

deepseek-r1-distill-qwen-32b

deepseek-r1-distill-qwen-1.5b

60

100,000

deepseek-r1-distill-llama-8b

deepseek-r1-distill-llama-70b

Kimi

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

Moonshot-Kimi-K2-Instruct

60

100,000

GLM-4.5

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

glm-4.5

60

1,000,000

glm-4.5-air

Llama

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

llama-4-maverick-17b-128e-instruct

10

20,000

llama-4-scout-17b-16e-instruct

百川

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

Baichuan2-Turbo-192kBaichuan2-Turbo-192k

60

100,000

Baichuan2-Turbo

Minimax

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

abab6.5s-chat

60

100,000

abab6.5t-chat

abab6.5g-chat

图像生成模型

通义千问(Qwen-Image)

模型名称

限流条件(超出任一数值时触发限流)

每秒钟任务下发接口RPS限制

同时处理中任务数量(并发数)

qwen-image

2

2

qwen-image-edit

2

2

qwen-mt-image

1

2

通义万相

模型名称

限流条件(超出任一数值时触发限流)

每秒钟任务下发接口RPS限制

同时处理中任务数量(并发数)

wanx-v1

2

1

wanx-sketch-to-image-lite

wanx-x-painting

wanx2.1-imageedit

2

wanx2.0-t2i-turbo

wanx2.1-t2i-turbo

wanx2.1-t2i-plus

wan2.2-t2i-flash

wan2.2-t2i-plus

图像编辑与生成

模型名称

限流条件(超出任一数值时触发限流)

每秒钟任务下发接口RPS限制

同时处理中任务数量(并发数)

shoemodel-v1

2

1

wanx-virtualmodel

wanx-style-repaint-v1

image-out-painting

wanx-poster-generation-v1

virtualmodel-v2

wanx-background-generation-v2

image-instance-segmentation

image-erase-completion

StableDiffusion文生图模型

模型名称

限流条件(超出任一数值时触发限流)

作业提交接口RPS限制

同时处理中任务数量

stable-diffusion-3.5-large

2

1

在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。

stable-diffusion-3.5-large-turbo

stable-diffusion-xl

stable-diffusion-v1.5

FLUX文生图模型

模型名称

限流条件(超出任一数值时触发限流)

作业提交接口RPS限制

同时处理中任务数量

flux-merged

2

1

在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。

flux-dev

flux-schnell

FaceChain人物写真生成

模型名称

限流条件(超出任一数值时触发限流)

作业提交接口RPS限制

同时处理中任务数量

facechain-facedetect

5

同步接口无限制

facechain-finetune

2

1

facechain-generation

WordArt锦书-创意文字生成

模型名称

限流条件(超出任一数值时触发限流)

作业提交接口RPS限制

同时处理中任务数量

wordart-texture

2

1

wordart-semantic

AI试衣OutfitAnyone

模型名称

限流条件(超出任一数值时触发限流)

作业提交接口RPS限制

同时处理中任务数量

aitryon

10

5

aitryon-plus

10

5

aitryon-parsing-v1

10

同步接口无限制

aitryon-refiner

10

5

语音理解与生成模型

Qwen-TTS语音合成

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen-tts

60

100,000

qwen-tts-latest

qwen-tts-2025-05-22

qwen-tts-2025-04-10

Qwen-TTS-Realtime语音合成

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

qwen-tts-realtime

10

100,000

qwen-tts-realtime-latest

qwen-tts-realtime-2025-07-15

CosyVoice语音合成

模型名称

提交作业接口RPS限制

cosyvoice-v1

3

cosyvoice-v2

3

CosyVoice声音复刻

模型名称

提交作业接口RPS限制

cosyvoice-v1

10

声音复刻时,无论您是仅使用 v1、仅使用 v2,还是同时调用两者,系统对所有请求的总并发限制均为 10 RPS。这意味着:

  • 如果您仅调用 v1,则其最大并发请求为 10 RPS。

  • 如果您同时调用 v1 和 v2,两者的请求总和不能超过 10 RPS(例如,v1 使用 7 RPS,则 v2 最多只能使用 3 RPS)。

cosyvoice-v2

Sambert语音合成

模型服务

提交作业接口RPS限制

Sambert系列模型

20

SenseVoice语音识别

模型名称

提交作业接口RPS限制

任务查询接口RPS限制

sensevoice-v1

10

20

Paraformer语音识别

模型名称

提交作业接口RPS限制

paraformer-realtime-v2

20

paraformer-realtime-v1

paraformer-realtime-8k-v2

paraformer-realtime-8k-v1

模型名称

提交作业接口RPS限制

任务查询接口RPS限制

paraformer-v2

20

20

paraformer-v1

10

paraformer-8k-v2

20

paraformer-8k-v1

10

paraformer-mtl-v1

10

FunASR语音识别

模型名称

提交作业接口RPS限制

任务查询接口RPS限制

fun-asr

10

20

fun-asr-2025-08-25

Gummy语音识别/翻译

模型名称

提交作业接口RPS限制

gummy-realtime-v1

10

gummy-chat-v1

视频生成

通义万相系列

模型名称

限流条件(超出任一数值时触发限流)

每秒钟任务下发接口RPS限制

同时处理中任务数量(并发数)

wanx2.1-t2v-turbo

2

2

wanx2.1-t2v-plus

wan2.2-t2v-plus

wanx2.1-i2v-turbo

wanx2.1-i2v-plus

wan2.2-i2v-plus

wan2.2-i2v-flash

wanx2.1-kf2v-plus

wanx2.1-vace-plus

wan2.2-s2v-detect

5

同步接口无限制

wan2.2-s2v

1

舞动人像AnimateAnyone

模型名称

任务下发接口RPS限制

同时处理中任务数量

animate-anyone-detect-gen2

5

同步接口无限制

animate-anyone-template-gen2

1

在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。

animate-anyone-gen2

animate-anyone-detect

1算力单元支持2并发

animate-anyone

1算力单元支持1并发

悦动人像EMO

模型名称

任务下发接口RPS限制

同时处理中任务数量

emo-detect-v1

5

同步接口无限制

emo-v1

1

在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。

灵动人像LivePortrait

模型名称

任务下发接口RPS限制

同时处理中任务数量

liveportrait-detect

5

同步接口无限制

liveportrait

1

在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。

声动人像VideoRetalk

模型名称

任务下发接口RPS限制

同时处理中任务数量

videoretalk

1

1

在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。

表情包Emoji

模型名称

任务下发接口RPS限制

同时处理中任务数量

emoji-detect-v1

1

同步接口无限制

emoji-v1

1

在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。

向量模型

通用文本向量

模型名称

限流条件(超出任一数值时触发限流)

每秒钟调用次数(RPS)

每分钟消耗Token数(TPM)/作业数

含输入与输出Token

text-embedding-v1

30

1,200,000

text-embedding-v2

text-embedding-v3

text-embedding-v4

text-embedding-async-v1

1

当前用户在系统通用文本向量异步作业排队中和运行中的作业数量不超过50个。

另外,为了避免大量突发的作业占据太多资源,限制并发的作业数为3个,即任意时间,单个用户最多只有3个通用文本向量的异步作业在并发运行,其他的作业只能在队列中等待。

text-embedding-async-v2

多模态向量

模型名称

限流条件

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

multimodal-embedding-v1

120

文本分类、抽取、排序

OpenNLU开放域文本理解模型

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

opennlu-v1

60

10,000

通用文本排序模型

模型名称

限流条件(超出任一数值时触发限流)

以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

gte-rerank-v2

5,040

4,980,000,000

下线模型

详细信息,请参见模型下线机制说明

2025730日下线

类别

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

通义千问VL

qwen-vl-plus-2023-12-01

0

0

零一万物

yi-large

yi-medium

yi-large-rag

yi-large-turbo

Dolly

dolly-12b-v2

202572日下线

类别

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

Llama-仅文本输入

llama3.3-70b-instruct

0

0

llama3.2-3b-instruct

llama3.2-1b-instruct

llama3.1-405b-instruct

llama3.1-70b-instruct

llama3.1-8b-instruct

llama3-70b-instruct

llama3-8b-instruct

llama2-13b-chat-v2

llama2-7b-chat-v2

Llama-文本和图像输入

llama3.2-90b-vision-instruct

llama3.2-11b-vision

百川-开源版

baichuan2-13b-chat-v1

baichuan2-7b-chat-v1

baichuan-7b-v1

ChatGLM

chatglm3-6b

chatglm-6b-v2

姜子牙

ziya-llama-13b-v1

BELLE

belle-llama-13b-2m-v1

元语

chatyuan-large-v2

BiLLa

billa-7b-sft-v1

类别

模型名称

限流条件(超出任一数值时触发限流)

每秒钟任务下发接口RPS限制

同时处理中任务数量

动漫人物生成

wanx-style-cosplay-v1

0

0

图配文

wanx-ast

创意文字生成-WordArt锦书

wordart-surnames

AnyText图文融合

wanx-anytext-v1

202558日下线

类别

模型名称

限流条件(超出任一数值时触发限流)

替代模型

每分钟调用次数(RPM)

每分钟消耗Token数(TPM)

含输入与输出Token

文本生成-通义千问

qwen-max-2024-01-07

(qwen-max-0107)

0

0

qwen-max

qwen-plus-2024-06-24

(qwen-plus-0624)

qwen-plus

qwen-plus-2024-02-06

(qwen-plus-0206)

qwen-turbo-2024-02-06

(qwen-turbo-0206)

qwen-turbo

qwen-vl-max-2024-02-01

(qwen-vl-max-0201)

qwen-vl-max

文本生成-通义千问-开源版

qwen-72b-chat

qwen2.5-72b-instruct

qwen-14b-chat

qwen2.5-14b-instruct

qwen-7b-chat

qwen2.5-7b-instruct

qwen-1.8b-chat

qwen2.5-1.5b-instruct

qwen-1.8b-longcontext-chat

qwen2.5-1.5b-instruct

qwen2-math-72b-instruct

qwen2.5-math-72b-instruct

qwen2-math-7b-instruct

qwen2.5-math-7b-instruct

qwen2-math-1.5b-instruct

qwen2.5-math-1.5b-instruct

类别

模型名称

限流条件(超出任一数值时触发限流)

替代模型

任务下发接口RPS限制

同时处理中任务数量

幻影人像Motionshop视频生成模型

motionshop-video-detect

0

0

使用animate-anyone-gen2的“按视频背景生成”功能,可达到近似效果

motionshop-gen3d

motionshop-synthesis