文档

通义千问VL

更新时间:
一键部署

通义千问VL是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM),可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,支持中文多模态对话及多图对话,并具有更好的性能,是首个支持中文开放域的通用定位模型和首个开源448分辨率的大规模视觉语言模型。

通义千问VL模型主要有以下特点:

  1. 强大的性能:在四大类多模态任务的标准英文测评中(Zero-shot Captioning/VQA/DocVQA/Grounding)上,均取得同等通用模型大小下最好效果;

  2. 多语言对话模型:天然支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;

  3. 多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;

  4. 首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注;

  5. 细粒度识别和理解:相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

目前,我们提供了Qwen-VL系列的两个模型:

  • Qwen-VL: Qwen-VL 以 Qwen-7B 的预训练模型作为语言模型的初始化,并以Openclip ViT-bigG作为视觉编码器的初始化,中间加入单层随机初始化的 cross-attention,经过约1.5B的图文数据训练得到。最终图像输入分辨率为448。

  • Qwen-VL-Chat: 在 Qwen-VL 的基础上,我们使用对齐机制打造了基于大语言模型的视觉AI助手Qwen-VL-Chat,其训练数据涵盖了 QWen-7B 的纯文本 SFT 数据、开源 LVLM 的 SFT 数据、数据合成和人工标注的图文对齐数据。

基本信息

模型服务

模型名称

模型描述

应用场景

通义千问VL

qwen-vl-v1

即将上架

以 Qwen-7B 语言模型初始化,添加图像模型,图像输入分辨率为448的预训练模型。

  • 支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;

  • 支持多图输入和比较,指定图片问答,多图文学创作等;

  • 通过中文开放域语言表达进行检测框标注;

qwen-vl-chat-v1

即将上架

通义千问VL支持灵活的交互方式,包括多图、多轮问答、创作等能力的模型。

计费和限流信息

限流是基于模型维度的,并且和调用用户的阿里云主账号相关联,按照该账号下所有API-KEY调用该模型的总和计算。

说明

限流是基于模型维度的,并且和调用用户的阿里云主账号相关联,按照该账号下所有API-KEY调用该模型的总和计算限流。

模型名称

计费单价

免费额度

基础限流

qwen-vl-v1

即将上架

限时免费

10万tokens

领取方式:开通阿里云百炼大模型后,自动发放;

有效期:180天

以下条件任何一个超出都会触发限流:

  • 流量 ≤ 60 QPM,每分钟处理不超过60个完整的请求;

  • Token消耗 ≤ 10,000 TPM,每分钟消耗的Token数目不超过10,000。

qwen-vl-chat-v1

即将上架

如果您熟悉编程语言,推荐您使用SDK或API调用通义千问模型,实现灵活定制和开发。SDK或API调用请参考开发指南

说明

超出基础限流配额申请

将以下信息补充完整并发送到邮箱:modelstudio@service.aliyun.com,会有专员进行评估。

阿里云主账号UID:

需调整的模型名称:

每分钟请求数:

每分钟使用量(token):

联系电话:

申请原因(需要尽可能的详细):

  • 本页导读 (1)
文档反馈