为了保证用户调用模型的公平性,百炼设置了基础限流。限流是基于模型维度的,并且和调用用户的阿里云主账号相关联,按照该账号下所有API-KEY调用该模型的总和计算限流。如果超出调用限制,用户的API请求将会因为限流而失败,用户需等到不满足限流条件时才能再次调用。
如果您需要提高模型的QPM或TPM,请按需提交提额表单:模型限流申请。
文本生成
通义千问
通义千问语言模型
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
qwen-max 用Batch API调用服务时,不受限流限制。 | 60 | 100,000 |
qwen-max-latest | ||
qwen-max-2024-09-19 (qwen-max-0919) | ||
qwen-max-2024-04-28 (qwen-max-0428) | ||
qwen-max-2024-04-03 (qwen-max-0403) | ||
qwen-max-2024-01-07 (qwen-max-0107) | 10 | 20,000 |
qwen-plus 用Batch API调用服务时,不受限流限制。 | 200 | 200,000 |
qwen-plus-latest | 60 | 150,000 |
qwen-plus-2024-09-19 (qwen-plus-0919) | 60 | 150,000 |
qwen-plus-2024-08-06 (qwen-plus-0806) | 60 | 150,000 |
qwen-plus-2024-07-23 (qwen-plus-0723) | 60,000 | |
qwen-plus-2024-06-24 (qwen-plus-0624) | 150,000 | |
qwen-plus-2024-02-06 (qwen-plus-0206) | 18,000 | |
qwen-turbo 用Batch API调用服务时,不受限流限制。 | 500 | 500,000 |
qwen-turbo-latest | 60 | 5,000,000 |
qwen-turbo-2024-11-01 (qwen-turbo-1101) | 60 | 5,000,000 |
qwen-turbo-2024-09-19 (qwen-turbo-0919) | 60 | 150,000 |
qwen-turbo-2024-06-24 (qwen-turbo-0624) | 60 | 150,000 |
qwen-turbo-2024-02-06 (qwen-turbo-0206) | 18,000 | |
qwen-long | 100 | 暂无限制 |
通义千问数学模型
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
qwen-math-plus | 60 | 100,000 |
qwen-math-plus-latest | 60 | 100,000 |
qwen-math-plus-2024-09-19 (qwen-math-plus-0919) | 60 | 100,000 |
qwen-math-plus-2024-08-16 (qwen-math-plus-0816) | 10 | 20,000 |
qwen-math-turbo | 60 | 100,000 |
qwen-math-turbo-latest | 60 | 100,000 |
qwen-math-turbo-2024-09-19 (qwen-math-turbo-0919) | 60 | 100,000 |
通义千问代码模型
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
qwen-coder-plus | 120 | 200,000 |
qwen-coder-plus-latest | ||
qwen-coder-plus-2024-11-06 (qwen-coder-plus-1106) | ||
qwen-coder-turbo | 60 | 100,000 |
qwen-coder-turbo-latest | ||
qwen-coder-turbo-2024-09-19 (qwen-coder-turbo-0919) |
通义千问VL(视觉理解/图生文)
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
qwen-vl-plus | 60 | 100,000 |
qwen-vl-plus-latest | ||
qwen-vl-plus-2024-08-09 (qwen-vl-plus-0809) | ||
qwen-vl-max | 15 | 25,000 |
qwen-vl-max-latest | 15 | 25,000 |
qwen-vl-max-2024-10-30 (qwen-vl-max-1030) | 15 | 25,000 |
qwen-vl-max-2024-08-09 (qwen-vl-max-0809) | 15 | 25,000 |
qwen-vl-max-2024-02-01 (qwen-vl-max-0201) | 15 | 25,000 |
qwen-vl-ocr | 600 | 2,400,000 |
qwen-vl-ocr-lastest | ||
qwen-vl-ocr-2024-10-28 |
通义千问Audio(音频理解)
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
qwen-audio-turbo | 120 | 100,000 |
通义千问开源版
通义千问语言模型开源版
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
qwen2.5-72b-instruct | 60 | 150,000 |
qwen2.5-32b-instruct | 10 | 20,000 |
qwen2.5-14b-instruct | 60 | 150,000 |
qwen2.5-7b-instruct | 60 | 150,000 |
qwen2.5-3b-instruct | 60 | 2,000,000 |
qwen2.5-1.5b-instruct | 60 | 2,000,000 |
qwen2.5-0.5b-instruct | 60 | 2,000,000 |
qwen2-72b-instruct | 60 | 150,000 |
qwen2-57b-a14b-instruct | ||
qwen2-7b-instruct | ||
qwen2-1.5b-instruct | 2,000,000 | |
qwen2-0.5b-instruct | ||
qwen1.5-110b-chat | 10 | 20,000 |
qwen1.5-72b-chat | 120 | 200,000 |
qwen1.5-32b-chat | 10 | 20,000 |
qwen1.5-14b-chat | 120 | 200,000 |
qwen1.5-7b-chat | ||
qwen-72b-chat | 80 | 130,000 |
qwen-14b-chat | 300 | 500,000 |
qwen-7b-chat | 300 | |
qwen-1.8b-chat | 12 | 200,000 |
通义千问数学模型开源版
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
qwen2.5-math-72b-instruct | 60 | 100,000 |
qwen2.5-math-7b-instruct | 60 | 100,000 |
qwen2.5-math-1.5b-instruct | 60 | 2,000,000 |
qwen2-math-72b-instruct | 10 | 20,000 |
qwen2-math-7b-instruct | ||
qwen2-math-1.5b-instruct |
通义千问代码模型开源版
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
qwen2.5-coder-32b-instruct | 120 | 200,000 |
qwen2.5-coder-14b-instruct | ||
qwen2.5-coder-7b-instruct | 60 | 100,000 |
qwen2.5-coder-3b-instruct | 120 | 200,000 |
qwen2.5-coder-1.5b-instruct | 60 | 100,000 |
qwen2.5-coder-0.5b-instruct | 120 | 200,000 |
通义千问VL开源版(视觉理解/图生文)
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
qwen2-vl-7b-instruct | 60 | 100,000 |
qwen2-vl-2b-instruct | ||
qwen-vl-v1 | 60 | 10,000 |
qwen-vl-chat-v1 |
通义千问Audio开源版(音频理解)
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
qwen-audio-chat | 120 | 100,000 |
通义法睿(法律模型)
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
farui-plus | 120 | 500,000 |
文本生成-第三方模型
Llama
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
llama3.2-90b-vision-instruct | 10 | 20,000 |
llama3.2-11b-vision | ||
llama3.2-3b-instruct | ||
llama3.2-1b-instruct | ||
llama3.1-405b-instruct | ||
llama3.1-70b-instruct | ||
llama3.1-8b-instruct | ||
llama3-70b-instruct | ||
llama3-8b-instruct | ||
llama2-13b-chat-v2 | 60 | 100,000 |
llama2-7b-chat-v2 |
百川
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
Baichuan2-Turbo-192kBaichuan2-Turbo-192k | 60 | 100,000 |
Baichuan2-Turbo |
百川开源版
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
baichuan2-13b-chat-v1 | 60 | 100,000 |
baichuan2-7b-chat-v1 | ||
baichuan-7b-v1 |
ChatGLM
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
chatglm3-6b | 120 | 200,000 |
chatglm-6b-v2 | 60 | 100,000 |
Dolly
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
dolly-12b-v2 | 10 | 2,500 |
零一万物
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
yi-large | 60 | 100,000 |
yi-medium | ||
yi-large-rag | ||
yi-large-turbo |
Minimax
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
abab6.5s-chat | 60 | 100,000 |
abab6.5t-chat | ||
abab6.5g-chat |
图像生成模型
通义万相系列
模型名称 | 每秒钟任务下发接口QPS限制 | 同时处理中任务数量 |
wanx-v1 | 2 | 1 |
wanx-sketch-to-image-lite | ||
wanx-v1-0521 | ||
wanx-x-painting |
图像编辑与生成
模型名称 | 每秒钟任务下发接口QPS限制 | 同时处理中任务数量 |
shoemodel-v1 | 2 | 1 |
wanx-virtualmodel | ||
wanx-style-repaint-v1 | ||
image-out-painting | ||
wanx-poster-generation-v1 | ||
wanx-ast | ||
virtualmodel-v2 | ||
wanx-background-generation-v2 | ||
wanx-style-cosplay-v1 | ||
image-instance-segmentation | ||
image-erase-completion |
StableDiffusion文生图模型
模型名称 | 限流条件(超出任一数值时触发限流) | |
作业提交接口QPS限制 | 同时处理中任务数量 | |
stable-diffusion-3.5-large | 2 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 |
stable-diffusion-3.5-large-turbo | ||
stable-diffusion-xl | ||
stable-diffusion-v1.5 |
FLUX文生图模型
模型名称 | 限流条件(超出任一数值时触发限流) | |
作业提交接口QPS限制 | 同时处理中任务数量 | |
flux-merged | 2 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 |
flux-dev | ||
flux-schnell |
FaceChain人物写真生成
模型名称 | 任务下发接口QPS限制 | 同时处理中任务数量 |
facechain-facedetect | 5 | 同步接口无限制 |
facechain-finetune | 2 | 1 |
facechain-generation |
WordArt锦书-创意文字生成
模型名称 | 任务下发接口QPS限制 | 同时处理中任务数量 |
wordart-texture | 2 | 1 |
wordart-semantic | ||
wordart-surnames |
AI试衣OutfitAnyone
任务下发接口QPS限制 | 同时处理中任务数量 |
2 | 1 |
语音理解与生成模型
CosyVoice语音合成
模型名称 | 任务查询接口QPS限制 |
cosyvoice-v1 | 3 |
Sambert语音合成
模型服务 | 任务查询接口QPS限制 |
Sambert系列模型 | 20 |
SenseVoice语音识别
模型名称 | 任务查询接口QPS限制 |
sensevoice-v1 | 10 |
Paraformer语音识别
模型名称 | 任务查询接口QPS限制 |
paraformer-realtime-v2 | 20 |
paraformer-realtime-v1 | |
paraformer-realtime-8k-v1 |
模型名称 | 提交作业接口QPS限制 | 任务查询接口QPS限制 |
paraformer-v2 | 5 | 20 |
paraformer-v1 | ||
paraformer-8k-v1 | ||
paraformer-mtl-v1 |
视频合成
悦动人像EMO
模型名称 | 任务下发接口QPS限制 | 同时处理中任务数量 |
emo-detect-v1 | 5 | 同步接口无限制 |
emo-v1 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 |
灵动人像LivePortrait
模型名称 | 任务下发接口QPS限制 | 同时处理中任务数量 |
liveportrait-detect | 5 | 同步接口无限制 |
liveportrait | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 |
幻影人像Motionshop
模型名称 | 任务下发接口QPS限制 | 同时处理中任务数量 |
motionshop-video-detect | 1 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 |
motionshop-gen3d | 1 | |
motionshop-synthesis | 1 |
向量模型
通用文本向量
模型名称 | 限流条件(超出任一数值时触发限流) | |
每秒钟调用次数(QPS) | 每分钟消耗Token数(TPM)/作业数 | |
text-embedding-v1 | 30 | 600,000 |
text-embedding-v2 | ||
text-embedding-v3 | ||
text-embedding-async-v1 | 1 | 当前用户在系统通用文本向量异步作业排队中和运行中的作业数量不超过50个。 另外,为了避免大量突发的作业占据太多资源,限制并发的作业数为3个,即任意时间,单个用户最多只有3个通用文本向量的异步作业在并发运行,其他的作业只能在队列中等待。 |
text-embedding-async-v2 |
ONE-PEACE多模态向量
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗加权条目数量(条) | |
multimodal-embedding-one-peace-v1 | 20 | 20 |
文本分类、抽取、排序
OpenNLU开放域文本理解模型
模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(QPM) | 每分钟消耗Token数(TPM) | |
opennlu-v1 | 60 | 10,000 |
通用文本排序模型
模型名称 | 限流条件(超出任一数值时触发限流) | |
每秒钟调用次数(QPS) | 每分钟消耗Token数(TPM) | |
gte-rerank | 5 | 10,000,000 |