选择适合语音对话、语音翻译等场景的模型。
S2S(Speech-to-Speech)与Pipeline对比
构建语音应用有两种方式:
|
S2S |
Pipeline(ASR + LLM + TTS) |
|
|
延迟 |
低 -- 单模型流式处理 |
较高 -- 3个阶段串行处理 |
|
音频理解 |
端到端 -- 能感知语调、情绪并做出相应回应 |
先转文本再处理 -- 音频中的细微信息丢失 |
|
音色定制 |
通过系统提示词选择预设音色 |
声音克隆、声音设计(CosyVoice) |
-
使用S2S:当交互式对话、低延迟和音频感知的回复是关键需求时。
-
使用Pipeline:当需要自定义音色,或者需要为每个阶段分别选择最优的ASR、LLM和TTS模型时。
实时还是文件模式?
-
实时(WebSocket):适用于语音助手、呼叫中心、同声传译等实时语音交互场景。音频流式输入,语音流式输出。模型名称中包含
-realtime。 -
文件模式(HTTP):可以用延迟换取更好的效果,适用于视频配音、播客翻译、离线内容处理等场景。支持Function Calling(Qwen3.5-Omni、Qwen3-Omni-Flash)、联网搜索(Qwen3.5-Omni)、思考模式(Qwen3-Omni-Flash)以及视频上下文(Livetranslate)。
Function Calling
让模型根据听到和看到的内容执行操作 -- 查询知识库、查询日程、触发工作流。使用Qwen3.5 Omni(WebSocket与HTTP模式) 或 Qwen3 Omni(HTTP模式)。
实时模型和Livetranslate模型不支持此功能。
联网搜索
让模型检索实时信息,回答关于时事、股价、天气等问题。使用Qwen3.5 Omni(HTTP和WebSocket),包括Plus和Flash系列。模型自主决定是否搜索。
Qwen3-Omni-Flash和Livetranslate模型不支持此功能。
思考模式
当回答质量比延迟更重要时,使用Qwen3 Omni(HTTP模式)。模型在回复前会逐步推理,适用于视频分析、批量打标等场景。
思考模式下不支持生成语音。
翻译
三个模型系列均支持语音翻译:
-
Qwen3-Livetranslate:支持18种语言 + 5种中文方言,约3秒延迟,开箱即用。文件模式支持输入视频以获得上下文感知的翻译精度。其中7种语言仅输出文本(不输出语音)。
-
Qwen3.5-Omni:支持29种输出语言 + 7种中文方言。优秀的音视频理解能力和联网搜索。可通过系统提示词注入术语和领域上下文。支持实时和文件模式。
-
Qwen3-Omni-Flash:支持11种输出语言 + 8种中文方言。可通过系统提示词注入术语和领域上下文。支持实时和文件模式。成本更低。
快速搭建翻译应用推荐Livetranslate;最高质量和最广语言覆盖推荐Qwen3.5-Omni;成本敏感场景推荐Qwen3-Omni-Flash。
推荐模型
|
模型 |
API |
输入 |
Function Calling |
联网搜索 |
思考模式 |
|
|
WebSocket |
文本、音频、图片 |
支持 |
支持 |
-- |
|
|
HTTP |
文本、音频、图片、视频 |
支持 |
支持 |
-- |
|
|
WebSocket |
文本、音频、图片 |
支持 |
支持 |
-- |
|
|
HTTP |
文本、音频、图片、视频 |
支持 |
支持 |
-- |
|
|
WebSocket |
文本、音频、图片、视频 |
-- |
-- |
-- |
|
|
HTTP |
文本、音频、图片、视频 |
支持 |
-- |
支持 |
|
|
WebSocket |
音频、图片 |
-- |
-- |
-- |
|
|
HTTP |
音频、视频 |
-- |
-- |
-- |
所有模型
Qwen3.5-Omni
以下模型适用于中国内地和国际服务部署范围。
|
模型 |
API |
输入 |
Function Calling |
联网搜索 |
思考模式 |
|
|
WebSocket |
文本、音频、图片、视频 |
支持 |
支持 |
-- |
|
|
WebSocket |
文本、音频、图片、视频 |
支持 |
支持 |
-- |
|
|
HTTP |
文本、音频、图片、视频 |
支持 |
支持 |
-- |
|
|
HTTP |
文本、音频、图片、视频 |
支持 |
支持 |
-- |
|
|
WebSocket |
文本、音频、图片、视频 |
支持 |
支持 |
-- |
|
|
WebSocket |
文本、音频、图片、视频 |
支持 |
支持 |
-- |
|
|
HTTP |
文本、音频、图片、视频 |
支持 |
支持 |
-- |
|
|
HTTP |
文本、音频、图片、视频 |
支持 |
支持 |
-- |
Qwen3-Omni
以下模型适用于中国内地和国际服务部署范围。
|
模型 |
API |
输入 |
Function Calling |
联网搜索 |
思考模式 |
|
|
WebSocket |
文本、音频、图片、视频 |
-- |
-- |
-- |
|
|
WebSocket |
文本、音频、图片、视频 |
-- |
-- |
-- |
|
|
WebSocket |
文本、音频、图片、视频 |
-- |
-- |
-- |
|
|
HTTP |
文本、音频、图片、视频 |
支持 |
-- |
支持 |
|
|
HTTP |
文本、音频、图片、视频 |
支持 |
-- |
支持 |
|
|
HTTP |
文本、音频、图片、视频 |
支持 |
-- |
支持 |
Qwen3-Livetranslate
以下模型适用于中国内地和国际服务部署范围。
|
模型 |
API |
输入 |
语言数 |
|
|
WebSocket |
音频 |
18 |
|
|
WebSocket |
音频 |
18 |
|
|
HTTP |
音频、视频 |
18 |
|
|
HTTP |
音频、视频 |
18 |
旧版模型
以下模型不再更新,新项目建议使用Qwen3.5-Omni。
|
模型 |
输入 |
API |
|
|
文本、音频、图片、视频 |
HTTP |
|
|
文本、音频、图片、视频 |
HTTP |
|
|
文本、音频、图片、视频 |
HTTP |
|
|
文本、音频、图片、视频 |
HTTP |
|
|
文本、音频 |
WebSocket |
|
|
文本、音频 |
WebSocket |
|
|
文本、音频 |
WebSocket |