选择适合多模态理解、音视频分析、语音对话、内容审核、语音翻译等全模态场景的模型。
使用场景
全模态模型能同时理解文本、音频、图片和视频,并输出文本和语音。当前提供三个模型系列:Qwen3.5-Omni(旗舰,能力最全)、Qwen3-Omni-Flash(轻量,成本更低,支持深度推理)、Qwen3-Livetranslate(专业翻译,开箱即用)。根据您的场景选择合适的模型:
|
场景 |
推荐模型 |
用户指南 |
|
实时语音/视频对话:通过麦克风和摄像头与AI实时交互(语音助手、智能客服、视觉问答、直播分析) |
Qwen3.5-Omni Realtime(WebSocket) |
|
|
音视频内容分析:上传音频或视频文件,AI分析内容并生成文本或语音回复(视频审核、会议纪要、字幕生成) |
Qwen3.5-Omni(HTTP) |
|
|
轻量音视频分析:上传音频或视频文件进行分析,成本更低(单次输入限150秒)。支持深度推理(思考模式),仅输出文本 |
Qwen3-Omni-Flash(HTTP) |
|
|
实时语音翻译:语音同传,约3秒延迟,支持18种语言(同声传译、多语言会议) |
Qwen3-Livetranslate(WebSocket) |
|
|
音视频文件翻译:上传音频/视频文件翻译为目标语言(视频配音、播客翻译) |
Qwen3-Livetranslate(HTTP) |
|
|
声音复刻:提供参考音频,AI用该音色生成语音回复 |
Qwen3.5-Omni Plus / Flash(HTTP / WebSocket) |
-
内容分析场景中,Qwen3.5-Omni支持音频最长3小时、视频最长1小时。
-
支持工具调用(Function Calling):Qwen3.5-Omni(WebSocket + HTTP)、Qwen3-Omni-Flash(仅HTTP)。
-
支持联网搜索:仅Qwen3.5-Omni(HTTP / WebSocket)。联网搜索与Function Calling不可同时开启。
翻译
全模态模型支持语音翻译,不同模型适用于不同翻译场景。
快速搭建翻译应用推荐Qwen3-Livetranslate(18种语言,约3秒延迟,开箱即用);最高质量和最广语言覆盖推荐Qwen3.5-Omni(29种输出语言,支持联网搜索和术语注入);成本敏感场景推荐Qwen3-Omni-Flash(11种输出语言,成本更低)。
推荐模型
|
模型 |
API |
输入 |
Function Calling |
联网搜索 |
思考模式 |
|
|
WebSocket |
文本、音频、图片 |
|
|
|
|
|
HTTP |
文本、音频、图片、视频 |
|
|
|
|
|
WebSocket |
文本、音频、图片 |
|
|
|
|
|
HTTP |
文本、音频、图片、视频 |
|
|
|
|
|
WebSocket |
文本、音频、图片、视频 |
|
|
|
|
|
HTTP |
文本、音频、图片、视频 |
|
|
|
|
|
WebSocket |
音频、图片 |
|
|
|
|
|
HTTP |
音频、视频 |
|
|
|
所有模型
Qwen3.5-Omni
|
模型 |
API |
输入 |
Function Calling |
联网搜索 |
思考模式 |
|
|
WebSocket |
文本、音频、图片、视频 |
|
|
|
|
|
WebSocket |
文本、音频、图片、视频 |
|
|
|
|
|
HTTP |
文本、音频、图片、视频 |
|
|
|
|
|
HTTP |
文本、音频、图片、视频 |
|
|
|
|
|
WebSocket |
文本、音频、图片、视频 |
|
|
|
|
|
WebSocket |
文本、音频、图片、视频 |
|
|
|
|
|
HTTP |
文本、音频、图片、视频 |
|
|
|
|
|
HTTP |
文本、音频、图片、视频 |
|
|
|
Qwen3-Omni
|
模型 |
API |
输入 |
Function Calling |
联网搜索 |
思考模式 |
|
|
WebSocket |
文本、音频、图片、视频 |
|
|
|
|
|
WebSocket |
文本、音频、图片、视频 |
|
|
|
|
|
WebSocket |
文本、音频、图片、视频 |
|
|
|
|
|
HTTP |
文本、音频、图片、视频 |
|
|
|
|
|
HTTP |
文本、音频、图片、视频 |
|
|
|
|
|
HTTP |
文本、音频、图片、视频 |
|
|
|
Qwen3-Livetranslate
|
模型 |
API |
输入 |
语言数 |
|
|
WebSocket |
音频 |
18 |
|
|
WebSocket |
音频 |
18 |
|
|
HTTP |
音频、视频 |
18 |
|
|
HTTP |
音频、视频 |
18 |
旧版模型
以下模型不再更新,新项目建议使用Qwen3.5-Omni。
|
模型 |
输入 |
API |
|
|
文本、音频、图片、视频 |
HTTP |
|
|
文本、音频、图片、视频 |
HTTP |
|
|
文本、音频、图片、视频 |
HTTP |
|
|
文本、音频、图片、视频 |
HTTP |
|
|
文本、音频 |
WebSocket |
|
|
文本、音频 |
WebSocket |
|
|
文本、音频 |
WebSocket |