选择适合多模态理解、音视频分析、语音对话、内容审核、语音翻译等全模态场景的模型。
使用场景
全模态模型能同时理解文本、音频、图片和视频,并输出文本和语音。当前提供三个模型系列:Qwen3.5-Omni(旗舰,能力最全)、Qwen3-Omni-Flash(轻量,成本更低,支持深度推理)、Qwen3.5-Livetranslate(专业翻译,开箱即用)。根据您的场景选择合适的模型:
场景 | 推荐模型 | 用户指南 |
实时语音/视频对话:通过麦克风和摄像头与AI实时交互(语音助手、智能客服、视觉问答、直播分析) | Qwen3.5-Omni Realtime(WebSocket) | |
音视频内容分析:上传音频或视频文件,AI分析内容并生成文本或语音回复(视频审核、会议纪要、字幕生成) | Qwen3.5-Omni(HTTP) | |
轻量音视频分析:上传音频或视频文件进行分析,成本更低(单次输入限150秒)。支持深度推理(思考模式),仅输出文本 | Qwen3-Omni-Flash(HTTP) | |
实时语音翻译:语音同传,约3秒延迟,支持60种语言(同声传译、多语言会议) | Qwen3.5-Livetranslate(WebSocket) | |
音视频文件翻译:上传音频/视频文件翻译为目标语言(视频配音、播客翻译) | Qwen3-Livetranslate(HTTP) | |
声音复刻:提供参考音频,AI用该音色生成语音回复 | Qwen3.5-Omni Plus / Flash(HTTP / WebSocket) |
内容分析场景中,Qwen3.5-Omni支持音频最长3小时、视频最长1小时。
支持工具调用(Function Calling):Qwen3.5-Omni(WebSocket + HTTP)、Qwen3-Omni-Flash(仅HTTP)。
支持联网搜索:仅Qwen3.5-Omni(HTTP / WebSocket)。联网搜索与Function Calling不可同时开启。
翻译
全模态模型支持语音翻译,不同模型适用于不同翻译场景。
快速搭建翻译应用推荐Qwen3.5-Livetranslate(60种语言,约3秒延迟,开箱即用);最高质量和最广语言覆盖推荐Qwen3.5-Omni(29种输出语言,支持联网搜索和术语注入);成本敏感场景推荐Qwen3-Omni-Flash(11种输出语言,成本更低)。
推荐模型
模型 | API | 输入 | Function Calling | 联网搜索 | 思考模式 |
| WebSocket | 文本、音频、图片 | |||
| HTTP | 文本、音频、图片、视频 | |||
| WebSocket | 文本、音频、图片 | |||
| HTTP | 文本、音频、图片、视频 | |||
| WebSocket | 文本、音频、图片、视频 | |||
| HTTP | 文本、音频、图片、视频 | |||
| WebSocket | 音频、图片 | |||
| HTTP | 音频、视频 |
所有模型
Qwen3.5-Omni
模型 | API | 输入 | Function Calling | 联网搜索 | 思考模式 |
| WebSocket | 文本、音频、图片、视频 | |||
| WebSocket | 文本、音频、图片、视频 | |||
| HTTP | 文本、音频、图片、视频 | |||
| HTTP | 文本、音频、图片、视频 | |||
| WebSocket | 文本、音频、图片、视频 | |||
| WebSocket | 文本、音频、图片、视频 | |||
| HTTP | 文本、音频、图片、视频 | |||
| HTTP | 文本、音频、图片、视频 |
Qwen3-Omni
模型 | API | 输入 | Function Calling | 联网搜索 | 思考模式 |
| WebSocket | 文本、音频、图片、视频 | |||
| WebSocket | 文本、音频、图片、视频 | |||
| WebSocket | 文本、音频、图片、视频 | |||
| HTTP | 文本、音频、图片、视频 | |||
| HTTP | 文本、音频、图片、视频 | |||
| HTTP | 文本、音频、图片、视频 |
Qwen3.5-Livetranslate
模型 | API | 输入 | 语言数 |
| WebSocket | 音频 | 60 |
| WebSocket | 音频 | 60 |
Qwen3-Livetranslate
模型 | API | 输入 | 语言数 |
| WebSocket | 音频 | 18 |
| WebSocket | 音频 | 18 |
| HTTP | 音频、视频 | 18 |
| HTTP | 音频、视频 | 18 |
旧版模型
以下模型不再更新,新项目建议使用Qwen3.5-Omni。
模型 | 输入 | API |
| 文本、音频、图片、视频 | HTTP |
| 文本、音频、图片、视频 | HTTP |
| 文本、音频、图片、视频 | HTTP |
| 文本、音频、图片、视频 | HTTP |
| 文本、音频 | WebSocket |
| 文本、音频 | WebSocket |
| 文本、音频 | WebSocket |