语音转语音

更新时间:
复制为 MD 格式

选择适合语音对话、语音翻译等场景的模型。

S2S(Speech-to-Speech)与Pipeline对比

构建语音应用有两种方式:

S2S

Pipeline(ASR + LLM + TTS)

延迟

低 -- 单模型流式处理

较高 -- 3个阶段串行处理

音频理解

端到端 -- 能感知语调、情绪并做出相应回应

先转文本再处理 -- 音频中的细微信息丢失

音色定制

通过系统提示词选择预设音色

声音克隆、声音设计(CosyVoice)

  • 使用S2S:当交互式对话、低延迟和音频感知的回复是关键需求时。

  • 使用Pipeline:当需要自定义音色,或者需要为每个阶段分别选择最优的ASR、LLMTTS模型时。

实时还是文件模式?

  • 实时(WebSocket):适用于语音助手、呼叫中心、同声传译等实时语音交互场景。音频流式输入,语音流式输出。模型名称中包含-realtime

  • 文件模式(HTTP):可以用延迟换取更好的效果,适用于视频配音、播客翻译、离线内容处理等场景。支持Function Calling(Qwen3.5-Omni、Qwen3-Omni-Flash)、联网搜索(Qwen3.5-Omni)、思考模式(Qwen3-Omni-Flash)以及视频上下文(Livetranslate)。

Function Calling

让模型根据听到和看到的内容执行操作 -- 查询知识库、查询日程、触发工作流。使用Qwen3.5 Omni(WebSocketHTTP模式) 或 Qwen3 Omni(HTTP模式)。

实时模型和Livetranslate模型不支持此功能。

联网搜索

让模型检索实时信息,回答关于时事、股价、天气等问题。使用Qwen3.5 Omni(HTTPWebSocket),包括PlusFlash系列。模型自主决定是否搜索。

Qwen3-Omni-FlashLivetranslate模型不支持此功能。

思考模式

当回答质量比延迟更重要时,使用Qwen3 Omni(HTTP模式)。模型在回复前会逐步推理,适用于视频分析、批量打标等场景。

思考模式下不支持生成语音。

翻译

三个模型系列均支持语音翻译:

  • Qwen3-Livetranslate:支持18种语言 + 5种中文方言,约3秒延迟,开箱即用。文件模式支持输入视频以获得上下文感知的翻译精度。其中7种语言仅输出文本(不输出语音)。

  • Qwen3.5-Omni:支持29种输出语言 + 7种中文方言。优秀的音视频理解能力和联网搜索。可通过系统提示词注入术语和领域上下文。支持实时和文件模式。

  • Qwen3-Omni-Flash:支持11种输出语言 + 8种中文方言。可通过系统提示词注入术语和领域上下文。支持实时和文件模式。成本更低。

说明

快速搭建翻译应用推荐Livetranslate;最高质量和最广语言覆盖推荐Qwen3.5-Omni;成本敏感场景推荐Qwen3-Omni-Flash。

支持的语言

语言

Qwen3-Livetranslate

Qwen3.5-Omni

Qwen3-Omni-Flash

英语

支持

支持

支持

中文(普通话)

支持

支持

支持

粤语

支持

支持

支持

四川话

支持

支持

支持

上海话

支持

支持

支持

北京话

支持

支持

支持

天津话

支持

支持

支持

南京话

--

支持

支持

陕西话

--

支持

支持

闽南语

--

支持

支持

法语

支持

支持

支持

德语

支持

支持

支持

俄语

支持

支持

支持

意大利语

支持

支持

支持

西班牙语

支持

支持

支持

葡萄牙语

支持

支持

支持

日语

支持

支持

支持

韩语

支持

支持

支持

泰语

仅文本

支持

支持

印尼语

仅文本

支持

--

越南语

仅文本

支持

--

阿拉伯语

仅文本

支持

--

印地语

仅文本

支持

--

土耳其语

仅文本

支持

--

芬兰语

--

支持

--

波兰语

--

支持

--

荷兰语

--

支持

--

捷克语

--

支持

--

乌尔都语

--

支持

--

他加禄语

--

支持

--

瑞典语

--

支持

--

丹麦语

--

支持

--

希伯来语

--

支持

--

冰岛语

--

支持

--

马来语

--

支持

--

挪威语

--

支持

--

波斯语

--

支持

--

希腊语

仅文本

--

--

"支持"表示同时输出语音和文本。"仅文本"表示该语言不输出语音。

Qwen3.5-Omni支持113种输入语言/方言。

旧版qwen-omni-turbo仅支持中文和英文。

推荐模型

模型

API

输入

Function Calling

联网搜索

思考模式

qwen3.5-omni-plus-realtime

WebSocket

文本、音频、图片

支持

支持

--

qwen3.5-omni-plus

HTTP

文本、音频、图片、视频

支持

支持

--

qwen3.5-omni-flash-realtime

WebSocket

文本、音频、图片

支持

支持

--

qwen3.5-omni-flash

HTTP

文本、音频、图片、视频

支持

支持

--

qwen3-omni-flash-realtime

WebSocket

文本、音频、图片、视频

--

--

--

qwen3-omni-flash

HTTP

文本、音频、图片、视频

支持

--

支持

qwen3-livetranslate-flash-realtime

WebSocket

音频、图片

--

--

--

qwen3-livetranslate-flash

HTTP

音频、视频

--

--

--

所有模型

Qwen3.5-Omni

以下模型适用于中国内地和国际服务部署范围。

模型

API

输入

Function Calling

联网搜索

思考模式

qwen3.5-omni-plus-realtime

WebSocket

文本、音频、图片、视频

支持

支持

--

qwen3.5-omni-plus-realtime-2026-03-15

WebSocket

文本、音频、图片、视频

支持

支持

--

qwen3.5-omni-plus

HTTP

文本、音频、图片、视频

支持

支持

--

qwen3.5-omni-plus-2026-03-15

HTTP

文本、音频、图片、视频

支持

支持

--

qwen3.5-omni-flash-realtime

WebSocket

文本、音频、图片、视频

支持

支持

--

qwen3.5-omni-flash-realtime-2026-03-15

WebSocket

文本、音频、图片、视频

支持

支持

--

qwen3.5-omni-flash

HTTP

文本、音频、图片、视频

支持

支持

--

qwen3.5-omni-flash-2026-03-15

HTTP

文本、音频、图片、视频

支持

支持

--

Qwen3-Omni

以下模型适用于中国内地和国际服务部署范围。

模型

API

输入

Function Calling

联网搜索

思考模式

qwen3-omni-flash-realtime

WebSocket

文本、音频、图片、视频

--

--

--

qwen3-omni-flash-realtime-2025-12-01

WebSocket

文本、音频、图片、视频

--

--

--

qwen3-omni-flash-realtime-2025-09-15

WebSocket

文本、音频、图片、视频

--

--

--

qwen3-omni-flash

HTTP

文本、音频、图片、视频

支持

--

支持

qwen3-omni-flash-2025-12-01

HTTP

文本、音频、图片、视频

支持

--

支持

qwen3-omni-flash-2025-09-15

HTTP

文本、音频、图片、视频

支持

--

支持

Qwen3-Livetranslate

以下模型适用于中国内地和国际服务部署范围。

模型

API

输入

语言数

qwen3-livetranslate-flash-realtime

WebSocket

音频

18

qwen3-livetranslate-flash-realtime-2025-09-22

WebSocket

音频

18

qwen3-livetranslate-flash

HTTP

音频、视频

18

qwen3-livetranslate-flash-2025-12-01

HTTP

音频、视频

18

旧版模型

以下模型不再更新,新项目建议使用Qwen3.5-Omni。

模型

输入

API

qwen2.5-omni-7b

文本、音频、图片、视频

HTTP

qwen-omni-turbo

文本、音频、图片、视频

HTTP

qwen-omni-turbo-latest

文本、音频、图片、视频

HTTP

qwen-omni-turbo-2025-03-26

文本、音频、图片、视频

HTTP

qwen-omni-turbo-realtime

文本、音频

WebSocket

qwen-omni-turbo-realtime-latest

文本、音频

WebSocket

qwen-omni-turbo-realtime-2025-05-08

文本、音频

WebSocket