新增模型公告

本文介绍近期新上架的模型。

新增模型列表

新增模型类型

上架时间

模型规格

功能说明

推理模型

2025-03-06

qwq-plus、qwq-plus-latest、qwq-plus-2025-03-05

基于 Qwen2.5 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平。深度思考(QwQ)

开源推理模型

2025-03-06

qwq-32b

基于 Qwen2.5-32B 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平,各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。深度思考(QwQ)

语音识别/翻译

2025-03-03

gummy-realtime-v1

gummy-chat-v1

Gummy大模型支持实时语音识别与翻译,能够精准识别中、英、日、韩等10种语言。此外,它还支持中、英、日、韩之间的互译,以及其他6种语言单向翻译成中文或英文。使用方法请参见语音识别/翻译

图生视频

2025-02-25

wanx2.1-i2v-turbo

相较于wanx2.1-i2v-plus模型,turbo模型生成速度更快,耗时仅为plus模型的三分之一,性价比更高。使用方法请参见图生视频

全模态

2025-02-14

qwen-omni-turbo

qwen-omni-turbo-latest

qwen-omni-turbo-2025-01-19

Qwen-Omni 系列模型支持输入多种模态的数据,包括视频、音频、图片、文本,并输出文本。使用方法请参见全模态(Qwen-Omni)

文生文

2025-01-27

deepseek-v3

deepseek-r1

DeepSeek系列模型是由深度求索(DeepSeek)公司推出的大语言模型。

  • DeepSeek-V3 为 MoE 模型,671B 参数,激活 37B,在 14.8T Token 上进行了预训练,在长文本、代码、数学、百科、中文能力上表现优秀。

  • DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力,尤其在数学、代码、自然语言推理等任务上。

  • 具体请参见文本生成-DeepSeek

视觉理解

2025-01-27

qwen2.5-vl-3b-instruct

qwen2.5-vl-7b-instruct

qwen2.5-vl-72b-instruct

  • 相对于Qwen2-VL大模型有如下改进:

    • 在指令跟随、数学计算、代码生成、结构化输出(JSON输出)等方面的能力有显著提升。

    • 支持对图像中的文字、图表、布局等视觉内容进行统一解析,并增加了精准定位视觉元素的能力,支持检测框和坐标点的表示方式。

    • 结合强大的定位和推理能力,模型的Agent能力大幅增强,可与手机、电脑、机器人等设备集成,根据视觉环境和文本指令进行自动操作。

    • 支持对长视频文件(最长10分钟)进行理解,具备秒级别的事件时刻定位能力,能理解时间先后和快慢。

  • 使用方法请参见视觉理解

文生文

2025-01-27

qwen-max-2025-01-25

qwen2.5-14b-instruct-1m

qwen2.5-7b-instruct-1m

  • qwen-max-2025-01-25模型(又称为Qwen2.5-Max):通义千问系列效果最好的模型,代码编写与理解能力、逻辑能力、多语言能力显著提升,回复风格面向人类偏好进行大幅调整,模型回复详实程度和格式清晰度明显改善,内容创作、JSON格式遵循、角色扮演能力定向提升。使用方法请参见:文本生成

  • qwen2.5-14b-instruct-1m、qwen2.5-7b-instruct-1m模型:相比于qwen2.5-14b-instructqwen2.5-7b-instruct模型,将上下文长度提高到了1,000,000。使用方法请参见:文本生成

图生视频

2025-01-22

emoji-detect-v1

emoji-v1

  • 基于人脸图片和预设的人脸动态模板,生成人脸动态视频。该模型可用于表情包制作、视频素材生成等场景。使用方法请参见表情包Emoji快速开始

文生文

2025-01-17

qwen-plus-2025-01-12

  • 相对于qwen-plus-2024-12-20模型,中英文整体能力有提升,中英常识、阅读理解能力提升较为显著,在不同语言、方言、风格之间自然切换的能力有显著改善,中文指令遵循能力显著提升。使用方法请参见qwen-plus-2025-01-12

图生视频

2025-01-17

wanx2.1-i2v-plus

  • 输入图片作为视频首帧,再根据提示词生成视频。使用方法请参见图生视频

文生图

2025-01-17

wanx2.0-t2i-turbo

视觉理解

2025-01-13

qwen-vl-plus-2025-01-02

  • 相较于qwen-vl-plus-0809模型,大幅提升指令跟随、图像理解和数学能力。使用方法请参见视觉理解

文生视频

2025-01-08

wanx2.1-t2v-turbo

wanx2.1-t2v-plus

  • 一句话生成视频。

  • 具备强大的指令遵循能力,支持大幅度复杂运动、现实物理规律还原,生成的视频呈现丰富的艺术风格及影视级画面质感。使用方法请参见文生视频

文生图

2025-01-08

wanx2.1-t2i-turbo

wanx2.1-t2i-plus

视觉理解

2025-01-07

qwen-vl-max-2024-12-30

  • 该模型丰富了知识库,图像识别和理解能力进一步提升,能够解析复杂的视觉内容。使用方法请参见视觉理解

语音识别

2025-01-02

qwen-audio-asr

qwen-audio-asr-latest

qwen-audio-asr-2024-12-04

  • 通义千问ASR是基于Qwen-Audio训练,专用于语音识别的模型,目前支持的语言有:中文、英文。使用方法请参见语音识别/翻译

视觉推理

2024-12-25

qvq-72b-preview

  • 专注于提升视觉推理能力,尤其在数学推理领域。使用方法请参见视觉理解

多语言翻译

2024-12-25

qwen-mt-plus

qwen-mt-turbo

  • Qwen-MT模型是基于通义千问模型优化的机器翻译大语言模型,擅长中英互译、中文与小语种互译、英文与小语种互译,小语种包括日、韩、法、西、德、葡(巴西)、泰、印尼、越、阿等26种。在多语言互译的基础上,提供术语干预、领域提示、记忆库等能力,提升模型在复杂应用场景下的翻译效果。详情请参见翻译能力

视觉理解

2024-12-18

qwen2-vl-72b-instruct

  • 在多个视觉理解基准测试中取得了最先进的成绩,显著增强多模态任务的处理能力。使用方法请参见视觉理解

意图理解

2024-12-12

tongyi-intent-detect-v3

  • 通义意图理解模型,能够在百毫秒级时间内快速、准确地解析用户意图,并选择合适工具来解决用户问题。详情请参见意图理解

声动人像

2024-12-10

videoretalk

  • 支持根据人物视频和音频生成对口型视频,详情请参见快速开始

舞动人像

2024-12-10

animate-anyone-gen2

animate-anyone-detect-gen2

animate-anyone-template-gen2

  • 分别提供人物图片合规检测、人物动作模板生成与人物视频生成能力,依次调用这三个模型可生成人物舞蹈视频。详情请参见快速开始

llama系列

2024-12-09

llama3.3-70b-instruct

音频理解

2024-12-09

qwen-audio-turbo-latest

qwen-audio-turbo-2024-12-04

  • 新增的模型,相较于qwen-audio-turbo-2024-08-07版本,大幅提升语音识别准确率,并新增了语音聊天能力。详情请参见音频理解

文生文

2024-11-28

qwq-32b-preview

  • 本模型专注于增强 AI 推理能力。详情请参见QWQ

2024-11-28

qwen-plus-2024-11-25

qwen-plus-2024-11-27

  • 相较于qwen-plus-0919模型中英文回复详实程度显著提升,更加符合用户偏好;模型角色扮演能力显著增强;模型中文的文本创作能力显著提升;中英文指令遵循能力提升;修复了RAG场景下引用角标的生成问题。详情请参见通义千问-Plus

2024-11-15

qwen-turbo-2024-11-01