限流

为了保证用户调用模型的公平性,百炼设置了基础限流。限流是基于模型维度的,并且和调用用户的阿里云主账号相关联,按照该账号下所有API-KEY调用该模型的总和计算限流。如果超出调用限制,用户的API请求将会因为限流而失败,用户需等到不满足限流条件时才能再次调用。

说明

如果您需要提高模型的QPMTPM,请按需提交提额表单:模型限流申请

文本生成

通义千问

通义千问语言模型

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

qwen-max

Batch API调用服务时,不受限流限制。

60

100,000

qwen-max-latest

qwen-max-2024-09-19

(qwen-max-0919)

qwen-max-2024-04-28

(qwen-max-0428)

qwen-max-2024-04-03

(qwen-max-0403)

qwen-max-2024-01-07

(qwen-max-0107)

10

20,000

qwen-plus

Batch API调用服务时,不受限流限制。

200

200,000

qwen-plus-latest

60

150,000

qwen-plus-2024-09-19

(qwen-plus-0919)

60

150,000

qwen-plus-2024-08-06

(qwen-plus-0806)

60

150,000

qwen-plus-2024-07-23

(qwen-plus-0723)

60,000

qwen-plus-2024-06-24

(qwen-plus-0624)

150,000

qwen-plus-2024-02-06

(qwen-plus-0206)

18,000

qwen-turbo

Batch API调用服务时,不受限流限制。

500

500,000

qwen-turbo-latest

60

150,000

qwen-turbo-2024-09-19

(qwen-turbo-0919)

60

150,000

qwen-turbo-2024-06-24

(qwen-turbo-0624)

60

150,000

qwen-turbo-2024-02-06

(qwen-turbo-0206)

18,000

qwen-long

100

暂无限制

通义千问数学模型

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

qwen-math-plus

60

100,000

qwen-math-plus-latest

60

100,000

qwen-math-plus-2024-09-19

(qwen-math-plus-0919)

60

100,000

qwen-math-plus-2024-08-16

(qwen-math-plus-0816)

10

20,000

qwen-math-turbo

60

100,000

qwen-math-turbo-latest

60

100,000

qwen-math-turbo-2024-09-19

(qwen-math-turbo-0919)

60

100,000

通义千问代码模型

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

qwen-coder-turbo

60

100,000

qwen-coder-turbo-latest

60

100,000

qwen-coder-turbo-2024-09-19

(qwen-coder-turbo-0919)

60

100,000

通义千问VL(视觉理解/图生文)

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

qwen-vl-plus

60

100,000

qwen-vl-plus-latest

qwen-vl-plus-2024-08-09

(qwen-vl-plus-0809)

qwen-vl-max

15

25,000

qwen-vl-max-latest

15

25,000

qwen-vl-max-2024-08-09

(qwen-vl-max-0809)

15

25,000

qwen-vl-max-2024-02-01

(qwen-vl-max-0201)

15

25,000

通义千问Audio(音频理解)

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

qwen-audio-turbo

120

100,000

通义千问开源版

通义千问语言模型开源版

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

qwen2.5-72b-instruct

60

150,000

qwen2.5-32b-instruct

10

20,000

qwen2.5-14b-instruct

60

150,000

qwen2.5-7b-instruct

60

150,000

qwen2.5-3b-instruct

60

2,000,000

qwen2.5-1.5b-instruct

60

2,000,000

qwen2.5-0.5b-instruct

60

2,000,000

qwen2-72b-instruct

60

150,000

qwen2-57b-a14b-instruct

qwen2-7b-instruct

qwen2-1.5b-instruct

2,000,000

qwen2-0.5b-instruct

qwen1.5-110b-chat

10

20,000

qwen1.5-72b-chat

120

200,000

qwen1.5-32b-chat

10

20,000

qwen1.5-14b-chat

120

200,000

qwen1.5-7b-chat

qwen-72b-chat

80

130,000

qwen-14b-chat

300

500,000

qwen-7b-chat

300

qwen-1.8b-chat

12

200,000

通义千问数学模型开源版

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

qwen2.5-math-72b-instruct

60

100,000

qwen2.5-math-7b-instruct

60

100,000

qwen2.5-math-1.5b-instruct

60

2,000,000

qwen2-math-72b-instruct

10

20,000

qwen2-math-7b-instruct

qwen2-math-1.5b-instruct

通义千问代码模型开源版

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

qwen2.5-coder-7b-instruct

60

100,000

qwen2.5-coder-1.5b-instruct

60

2,000,000

通义千问VL开源版(视觉理解/图生文)

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

qwen2-vl-7b-instruct

60

100,000

qwen-vl-v1

60

10,000

qwen-vl-chat-v1

通义千问Audio开源版(音频理解)

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

qwen-audio-chat

120

100,000

通义法睿(法律模型

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

farui-plus

120

500,000

文本生成-第三方模型

Llama

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

llama3.2-3b-instruct

10

20,000

llama3.2-1b-instruct

llama3.1-405b-instruct

llama3.1-70b-instruct

llama3.1-8b-instruct

llama3-70b-instruct

llama3-8b-instruct

llama2-13b-chat-v2

60

100,000

llama2-7b-chat-v2

百川

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

Baichuan2-Turbo-192kBaichuan2-Turbo-192k

60

100,000

Baichuan2-Turbo

百川开源版

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

baichuan2-13b-chat-v1

60

100,000

baichuan2-7b-chat-v1

baichuan-7b-v1

ChatGLM

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

chatglm3-6b

120

200,000

chatglm-6b-v2

60

100,000

Dolly

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

dolly-12b-v2

10

2,500

零一万物

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

yi-large

60

100,000

yi-medium

yi-large-rag

yi-large-turbo

Minimax

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

abab6.5s-chat

60

100,000

abab6.5t-chat

abab6.5g-chat

图像生成模型

通义万相系列

模型名称

每秒钟任务下发接口QPS限制

同时处理中任务数量

wanx-v1

2

1

wanx-sketch-to-image-lite

wanx-v1-0521

wanx-x-painting

图像编辑与生成

模型名称

每秒钟任务下发接口QPS限制

同时处理中任务数量

shoemodel-v1

2

1

wanx-virtualmodel

wanx-style-repaint-v1

image-out-painting

wanx-poster-generation-v1

wanx-ast

virtualmodel-v2

wanx-background-generation-v2

wanx-style-cosplay-v1

image-instance-segmentation

image-erase-completion

StableDiffusion文生图模型

模型名称

限流条件(超出任一数值时触发限流)

作业提交接口QPS限制

同时处理中任务数量

stable-diffusion-3.5-large

2

1

在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。

stable-diffusion-3.5-large-turbo

stable-diffusion-xl

stable-diffusion-v1.5

FLUX文生图模型

模型名称

限流条件(超出任一数值时触发限流)

作业提交接口QPS限制

同时处理中任务数量

flux-merged

2

1

在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。

flux-dev

flux-schnell

FaceChain人物写真生成

模型名称

任务下发接口QPS限制

同时处理中任务数量

facechain-facedetect

5

同步接口无限制

facechain-finetune

2

1

facechain-generation

WordArt锦书-创意文字生成

模型名称

任务下发接口QPS限制

同时处理中任务数量

wordart-texture

2

1

wordart-semantic

wordart-surnames

AI试衣OutfitAnyone

任务下发接口QPS限制

同时处理中任务数量

2

1

语音理解与生成模型

CosyVoice语音合成

模型名称

任务查询接口QPS限制

cosyvoice-v1

3

Sambert语音合成

模型服务

任务查询接口QPS限制

Sambert系列模型

20

SenseVoice语音识别

模型名称

任务查询接口QPS限制

sensevoice-v1

10

Paraformer语音识别

模型名称

任务查询接口QPS限制

paraformer-realtime-v2

20

paraformer-realtime-v1

paraformer-realtime-8k-v1

模型名称

提交作业接口QPS限制

任务查询接口QPS限制

paraformer-v2

5

20

paraformer-v1

paraformer-8k-v1

paraformer-mtl-v1

向量模型

通用文本向量

模型名称

限流条件(超出任一数值时触发限流)

每秒钟调用次数(QPS)

每分钟消耗Token数(TPM)/作业数

text-embedding-v1

30

600,000

text-embedding-v2

text-embedding-v3

text-embedding-async-v1

1

当前用户在系统通用文本向量异步作业排队中和运行中的作业数量不超过50个。

另外,为了避免大量突发的作业占据太多资源,限制并发的作业数为3个,即任意时间,单个用户最多只有3个通用文本向量的异步作业在并发运行,其他的作业只能在队列中等待。

text-embedding-async-v2

ONE-PEACE多模态向量

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗加权条目数量(条)

multimodal-embedding-one-peace-v1

20

20

文本分类、抽取、排序

OpenNLU开放域文本理解模型

模型名称

限流条件(超出任一数值时触发限流)

每分钟调用次数(QPM)

每分钟消耗Token数(TPM)

opennlu-v1

60

10,000

通用文本排序模型

模型名称

限流条件(超出任一数值时触发限流)

每秒钟调用次数(QPS)

每分钟消耗Token数(TPM)

gte-rerank

5

10,000,000