通义千问VL_大模型服务平台百炼-阿里云帮助中心

通义千问VL是阿里云研发的大规模视觉语言模型（Large Vision Language Model, LVLM），可以以图像、文本、检测框作为输入，并以文本和检测框作为输出，支持中文多模态对话及多图对话，并具有更好的性能，是首个支持中文开放域的通用定位模型和首个开源448分辨率的大规模视觉语言模型。

通义千问VL模型主要有以下特点：

强大的性能：在四大类多模态任务的标准英文测评中（Zero-shot Captioning/VQA/DocVQA/Grounding）上，均取得同等通用模型大小下最好效果；
多语言对话模型：天然支持英文、中文等多语言对话，端到端支持图片里中英双语的长文本识别；
多图交错对话：支持多图输入和比较，指定图片问答，多图文学创作等；
首个支持中文开放域定位的通用模型：通过中文开放域语言表达进行检测框标注；
细粒度识别和理解：相比于目前其它开源LVLM使用的224分辨率，Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

目前，我们提供了Qwen-VL系列的两个模型：

Qwen-VL: Qwen-VL 以 Qwen-7B 的预训练模型作为语言模型的初始化，并以Openclip ViT-bigG作为视觉编码器的初始化，中间加入单层随机初始化的 cross-attention，经过约1.5B的图文数据训练得到。最终图像输入分辨率为448。
Qwen-VL-Chat: 在 Qwen-VL 的基础上，我们使用对齐机制打造了基于大语言模型的视觉AI助手Qwen-VL-Chat，其训练数据涵盖了 QWen-7B 的纯文本 SFT 数据、开源 LVLM 的 SFT 数据、数据合成和人工标注的图文对齐数据。

基本信息

模型服务

模型名称

模型描述

应用场景

通义千问VL

qwen-vl-v1

即将上架

以 Qwen-7B 语言模型初始化，添加图像模型，图像输入分辨率为448的预训练模型。

支持英文、中文等多语言对话，端到端支持图片里中英双语的长文本识别；
支持多图输入和比较，指定图片问答，多图文学创作等；
通过中文开放域语言表达进行检测框标注；

qwen-vl-chat-v1

即将上架

通义千问VL支持灵活的交互方式，包括多图、多轮问答、创作等能力的模型。

计费和限流信息

限流是基于模型维度的，并且和调用用户的阿里云主账号相关联，按照该账号下所有API-KEY调用该模型的总和计算。

说明

限流是基于模型维度的，并且和调用用户的阿里云主账号相关联，按照该账号下所有API-KEY调用该模型的总和计算限流。

模型名称

计费单价

免费额度

基础限流

qwen-vl-v1

即将上架

限时免费

10万tokens

领取方式：开通阿里云百炼大模型后，自动发放；

有效期：180天

以下条件任何一个超出都会触发限流：

流量 ≤ 60 QPM，每分钟处理不超过60个完整的请求；
Token消耗 ≤ 10,000 TPM，每分钟消耗的Token数目不超过10,000。

qwen-vl-chat-v1

即将上架

如果您熟悉编程语言，推荐您使用SDK或API调用通义千问模型，实现灵活定制和开发。SDK或API调用请参考开发指南。

说明

超出基础限流配额申请

将以下信息补充完整并发送到邮箱：modelstudio@service.aliyun.com，会有专员进行评估。

阿里云主账号UID：

需调整的模型名称：

每分钟请求数：

每分钟使用量（token）:

联系电话：

申请原因（需要尽可能的详细）：