限流_大模型服务平台百炼(Model Studio)-阿里云帮助中心

为了保证用户调用模型的公平性，百炼设置了基础限流。限流是基于模型维度的，并且和调用用户的阿里云主账号相关联，按照该账号下所有API-KEY调用该模型的总和计算限流。如果超出调用限制，用户的API请求将会因为限流而失败，用户需等到不满足限流条件时才能再次调用。

说明

如果您需要进一步提高模型的RPM或TPM，请通过邮箱申请，告知uid、期望申请的模型和RPM和TPM，请邮件联系：modelstudio@service.aliyun.com。

文本生成

通义千问

通义千问语言模型

模型名称	限流条件（超出任一数值时触发限流）
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
qwen-max 用Batch API调用服务时，不受限流限制。	1,200	1,000,000
qwen-max-latest
qwen-max-2024-09-19 （qwen-max-0919）	60	100,000

qwen-max-2024-04-28 （qwen-max-0428）		100,000
qwen-max-2024-04-03 （qwen-max-0403）
qwen-max-2024-01-07 （qwen-max-0107）	10	20,000
qwen-plus 用Batch API调用服务时，不受限流限制。	1,200	1,000,000
qwen-plus-latest
qwen-plus-2024-09-19 (qwen-plus-0919)	60	150,000
qwen-plus-2024-08-06 （qwen-plus-0806）
qwen-plus-2024-07-23 （qwen-plus-0723）		60,000
qwen-plus-2024-06-24 （qwen-plus-0624）		150,000
qwen-plus-2024-02-06 （qwen-plus-0206）		18,000
qwen-turbo 用Batch API调用服务时，不受限流限制。	1,200	5,000,000
qwen-turbo-latest
qwen-turbo-2024-11-01 (qwen-turbo-1101)	60
qwen-turbo-2024-09-19 (qwen-turbo-0919)	60	150,000
qwen-turbo-2024-06-24 （qwen-turbo-0624）	60	150,000
qwen-turbo-2024-02-06 （qwen-turbo-0206）		18,000
qwen-long	1,200	暂无限制

通义千问数学模型

模型名称	限流条件（超出任一数值时触发限流）
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
qwen-math-plus	1,200	1,000,000
qwen-math-plus-latest	1,200	1,000,000
qwen-math-plus-2024-09-19 （qwen-math-plus-0919）	60	100,000
qwen-math-plus-2024-08-16 （qwen-math-plus-0816）	10	20,000
qwen-math-turbo	1200	1,000,000
qwen-math-turbo-latest	1200	1,000,000
qwen-math-turbo-2024-09-19 （qwen-math-turbo-0919）	60	100,000

通义千问代码模型

模型名称	限流条件（超出任一数值时触发限流）
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
qwen-coder-plus	1,200	1,000,000
qwen-coder-plus-latest
qwen-coder-plus-2024-11-06 （qwen-coder-plus-1106）	60	100,000
qwen-coder-turbo	1,200	1,000,000
qwen-coder-turbo-latest
qwen-coder-turbo-2024-09-19 （qwen-coder-turbo-0919）	60	100,000

通义千问VL（视觉理解/图生文）

模型名称	限流条件（超出任一数值时触发限流）
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
qwen-vl-plus	1,200	1,000,000
qwen-vl-plus-latest
qwen-vl-plus-2024-08-09 （qwen-vl-plus-0809）	60	100,000
qwen-vl-max	1,200	1,000,000
qwen-vl-max-latest
qwen-vl-max-2024-11-19 （qwen-vl-max-1119）	60	100,000
qwen-vl-max-2024-10-30 （qwen-vl-max-1030）
qwen-vl-max-2024-08-09 （qwen-vl-max-0809）	15	25,000
qwen-vl-max-2024-02-01 （qwen-vl-max-0201）	15	25,000
qwen-vl-ocr	600	2,400,000
qwen-vl-ocr-lastest
qwen-vl-ocr-2024-10-28

通义千问Audio（音频理解）

模型名称	限流条件（超出任一数值时触发限流）
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
qwen-audio-turbo	120	100,000

通义千问开源版

通义千问语言模型开源版

模型名称	限流条件（超出任一数值时触发限流）
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
qwq-32b-preview	1,200	1,000,000
qwen2.5-72b-instruct
qwen2.5-32b-instruct
qwen2.5-14b-instruct
qwen2.5-7b-instruct
qwen2.5-3b-instruct		2,000,000
qwen2.5-1.5b-instruct		2,000,000
qwen2.5-0.5b-instruct		2,000,000
qwen2-72b-instruct	60	150,000
qwen2-57b-a14b-instruct
qwen2-7b-instruct
qwen2-1.5b-instruct		2,000,000
qwen2-0.5b-instruct		2,000,000
qwen1.5-110b-chat	10	20,000
qwen1.5-72b-chat	120	200,000
qwen1.5-32b-chat	10	20,000
qwen1.5-14b-chat	120	200,000
qwen1.5-7b-chat	120	200,000
qwen-72b-chat	80	130,000
qwen-14b-chat	300	500,000
qwen-7b-chat	300	500,000
qwen-1.8b-chat	12	200,000

通义千问数学模型开源版

模型名称	限流条件（超出任一数值时触发限流）
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
qwen2.5-math-72b-instruct	1,200	1,000,000
qwen2.5-math-7b-instruct
qwen2.5-math-1.5b-instruct
qwen2-math-72b-instruct	10	20,000
qwen2-math-7b-instruct
qwen2-math-1.5b-instruct

通义千问代码模型开源版

模型名称	限流条件（超出任一数值时触发限流）
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
qwen2.5-coder-32b-instruct	1,200	1,000,000
qwen2.5-coder-14b-instruct
qwen2.5-coder-7b-instruct
qwen2.5-coder-3b-instruct		2,000,000
qwen2.5-coder-1.5b-instruct
qwen2.5-coder-0.5b-instruct

通义千问VL开源版（视觉理解/图生文）

模型名称	限流条件（超出任一数值时触发限流）
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
qwen2-vl-7b-instruct	1,200	1,000,000
qwen2-vl-2b-instruct
qwen-vl-v1	60	10,000
qwen-vl-chat-v1

通义千问Audio开源版（音频理解）

模型名称	限流条件（超出任一数值时触发限流）
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
qwen-audio-chat	120	100,000

通义法睿（法律模型）

模型名称	限流条件（超出任一数值时触发限流）
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
farui-plus	120	500,000

文本生成-第三方模型

Llama

模型名称	限流条件（超出任一数值时触发限流）
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
llama3.2-90b-vision-instruct	10	20,000
llama3.2-11b-vision
llama3.2-3b-instruct
llama3.2-1b-instruct
llama3.1-405b-instruct
llama3.1-70b-instruct
llama3.1-8b-instruct
llama3-70b-instruct
llama3-8b-instruct
llama2-13b-chat-v2	60	100,000
llama2-7b-chat-v2

百川

模型名称	限流条件（超出任一数值时触发限流）
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
Baichuan2-Turbo-192kBaichuan2-Turbo-192k	60	100,000
Baichuan2-Turbo

百川开源版

模型名称	限流条件（超出任一数值时触发限流）
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
baichuan2-13b-chat-v1	60	100,000
baichuan2-7b-chat-v1
baichuan-7b-v1

ChatGLM

模型名称	限流条件（超出任一数值时触发限流）
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
chatglm3-6b	120	200,000
chatglm-6b-v2	60	100,000

Dolly

模型名称	限流条件（超出任一数值时触发限流）
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
dolly-12b-v2	10	2,500

零一万物

模型名称	限流条件（超出任一数值时触发限流）
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
yi-large	60	100,000
yi-medium
yi-large-rag
yi-large-turbo

Minimax

模型名称	限流条件（超出任一数值时触发限流）
	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
abab6.5s-chat	60	100,000
abab6.5t-chat
abab6.5g-chat

图像生成模型

通义万相系列

模型名称	每秒钟任务下发接口RPS限制	同时处理中任务数量
wanx-v1	3	1
wanx-sketch-to-image-lite
wanx-v1-0521
wanx-x-painting	2

图像编辑与生成

模型名称	每秒钟任务下发接口RPS限制	同时处理中任务数量
shoemodel-v1	2	1
wanx-virtualmodel
wanx-style-repaint-v1
image-out-painting
wanx-poster-generation-v1
wanx-ast
virtualmodel-v2
wanx-background-generation-v2
wanx-style-cosplay-v1
image-instance-segmentation
image-erase-completion

StableDiffusion文生图模型

模型名称	限流条件（超出任一数值时触发限流）
	作业提交接口RPS限制	同时处理中任务数量
stable-diffusion-3.5-large	2	1 在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。
stable-diffusion-3.5-large-turbo
stable-diffusion-xl
stable-diffusion-v1.5

FLUX文生图模型

模型名称	限流条件（超出任一数值时触发限流）
	作业提交接口RPS限制	同时处理中任务数量
flux-merged	2	1 在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。
flux-dev
flux-schnell

FaceChain人物写真生成

模型名称	任务下发接口RPS限制	同时处理中任务数量
facechain-facedetect	5	同步接口无限制
facechain-finetune	2	1
facechain-generation	2	1

WordArt锦书-创意文字生成

模型名称	任务下发接口RPS限制	同时处理中任务数量
wordart-texture	2	1
wordart-semantic
wordart-surnames

AI试衣OutfitAnyone

任务下发接口RPS限制	同时处理中任务数量
2	1

语音理解与生成模型

CosyVoice语音合成

模型名称	任务查询接口RPS限制
cosyvoice-v1	3

Sambert语音合成

模型服务	任务查询接口RPS限制
Sambert系列模型	20

SenseVoice语音识别

模型名称	任务查询接口RPS限制
sensevoice-v1	10

Paraformer语音识别

模型名称	任务查询接口RPS限制
paraformer-realtime-v2	20
paraformer-realtime-v1
paraformer-realtime-8k-v1

模型名称	提交作业接口RPS限制	任务查询接口RPS限制
paraformer-v2	10	20
paraformer-v1
paraformer-8k-v1
paraformer-mtl-v1

视频合成

悦动人像EMO

模型名称

任务下发接口RPS限制

同时处理中任务数量

emo-detect-v1

同步接口无限制

emo-v1

在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。

灵动人像LivePortrait

模型名称

任务下发接口RPS限制

同时处理中任务数量

liveportrait-detect

同步接口无限制

liveportrait

在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。

幻影人像Motionshop

模型名称	任务下发接口RPS限制	同时处理中任务数量
motionshop-video-detect	1	1 在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。
motionshop-gen3d	1
motionshop-synthesis	1

向量模型

通用文本向量

模型名称	限流条件（超出任一数值时触发限流）
	每秒钟调用次数（RPS）	每分钟消耗Token数（TPM）/作业数
text-embedding-v1	30	1,200,000
text-embedding-v2
text-embedding-v3
text-embedding-async-v1	1	当前用户在系统通用文本向量异步作业排队中和运行中的作业数量不超过50个。另外，为了避免大量突发的作业占据太多资源，限制并发的作业数为3个，即任意时间，单个用户最多只有3个通用文本向量的异步作业在并发运行，其他的作业只能在队列中等待。
text-embedding-async-v2

ONE-PEACE多模态向量

模型名称	限流条件（超出任一数值时触发限流）
模型名称	每分钟调用次数（RPM）	每分钟消耗加权条目数量（条）
multimodal-embedding-one-peace-v1	20	20

文本分类、抽取、排序

OpenNLU开放域文本理解模型

模型名称	限流条件（超出任一数值时触发限流）
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）
opennlu-v1	60	10,000

通用文本排序模型

模型名称	限流条件（超出任一数值时触发限流）
模型名称	每秒钟调用次数（RPS）	每分钟消耗Token数（TPM）
gte-rerank	5	10,000,000