选择适合语音合成、声音克隆和声音设计场景的模型。
以下列出语音合成、声音服务及旧版按 Token 计费等系列模型,可按场景筛选。通过以下两个问题可以快速缩小选择范围:
-
您需要自定义音色,还是使用内置音色即可?
-
您需要实时流式输出,还是非流式也可以接受?
标准语音合成还是自定义音色?
标准语音合成
使用内置音色,无需额外配置。选择模型、选择音色即可开始合成。
中国内地
|
模型 |
系列 |
核心优势 |
|
|
CosyVoice |
高质量,音色库持续更新 |
|
|
CosyVoice |
快速合成 |
|
|
CosyVoice |
高质量,丰富的音色库 |
|
|
CosyVoice |
快速合成 |
|
|
CosyVoice |
上一代高质量合成 |
|
|
CosyVoice |
上一代基础合成 |
|
|
Qwen3-TTS |
低延迟,高质量 |
|
|
Qwen3-TTS |
低延迟,高质量(快照版本) |
|
|
Qwen3-TTS |
低延迟,高质量(快照版本) |
|
|
Qwen3-TTS |
实时流式输出,低延迟 |
|
|
Qwen3-TTS |
实时流式输出,低延迟(快照版本) |
|
|
Qwen3-TTS |
实时流式输出,低延迟(快照版本) |
|
|
Qwen3-TTS |
指令控制(语速、情绪、风格) |
|
|
Qwen3-TTS |
指令控制(快照版本) |
|
|
Qwen3-TTS |
实时流式输出 + 指令控制 |
|
|
Qwen3-TTS |
实时流式输出 + 指令控制(快照版本) |
|
|
MiniMax |
高音质语音合成 |
|
|
MiniMax |
高音质语音合成 |
|
|
MiniMax |
低延迟快速合成 |
|
|
MiniMax |
低延迟快速合成 |
国际
|
模型 |
系列 |
核心优势 |
|
|
CosyVoice |
高质量,丰富的音色库 |
|
|
CosyVoice |
快速合成 |
|
|
Qwen3-TTS |
低延迟,高质量 |
|
|
Qwen3-TTS |
低延迟,高质量(快照版本) |
|
|
Qwen3-TTS |
低延迟,高质量(快照版本) |
|
|
Qwen3-TTS |
实时流式输出,低延迟 |
|
|
Qwen3-TTS |
实时流式输出,低延迟(快照版本) |
|
|
Qwen3-TTS |
实时流式输出,低延迟(快照版本) |
|
|
Qwen3-TTS |
指令控制(语速、情绪、风格) |
|
|
Qwen3-TTS |
指令控制(快照版本) |
|
|
Qwen3-TTS |
实时流式输出 + 指令控制 |
|
|
Qwen3-TTS |
实时流式输出 + 指令控制(快照版本) |
自定义音色
通过克隆音频样本或文字描述来创建独特的音色。
中国内地
|
模型 |
系列 |
核心优势 |
|
|
CosyVoice |
从音频样本克隆音色、实时声音设计 |
|
|
CosyVoice |
从音频样本克隆音色、实时声音设计 |
|
|
Qwen3-TTS |
从音频样本克隆音色 |
|
|
Qwen3-TTS |
实时声音克隆 |
|
|
Qwen3-TTS |
实时声音克隆 |
|
|
Qwen3-TTS |
通过文字描述设计音色 |
|
|
Qwen3-TTS |
实时声音设计 |
|
|
Qwen3-TTS |
实时声音设计 |
|
|
千问声音复刻 |
声音复刻(音色注册与管理) |
|
|
千问声音设计 |
声音设计(文本驱动创建音色) |
克隆与设计的区别:声音克隆是从音频样本中复制特定音色。声音设计是通过文字描述创建全新音色(例如"温暖的低音女声")。已有目标音色时用克隆,想从零创建时用设计。
控制语音表现
三种方式,按灵活性排序:
-
指令控制(
qwen3-tts-instruct-flash、qwen3-tts-instruct-flash-realtime):用自然语言描述期望的表达方式,可按请求控制语速、情绪和风格,灵活性最高。 -
声音设计(
qwen3-tts-vd-*):通过文字描述生成自定义音色。适用于无需音频样本即可创建品牌音色的场景。 -
声音克隆(
qwen3-tts-vc-*):从音频样本复制已有音色。适用于需要还原特定人物音色的场景。
完整对比
|
模型 |
系列 |
流式 |
自定义音色 |
指令控制 |
|
|
CosyVoice |
支持 |
不支持 |
支持 |
|
|
CosyVoice |
支持 |
不支持 |
支持 |
|
|
CosyVoice |
支持 |
不支持 |
支持 |
|
|
CosyVoice |
支持 |
不支持 |
不支持 |
|
|
CosyVoice |
支持 |
不支持 |
不支持 |
|
|
CosyVoice |
支持 |
不支持 |
不支持 |
|
|
Qwen3-TTS |
支持 |
不支持 |
不支持 |
|
|
Qwen3-TTS |
支持 |
不支持 |
不支持 |
|
|
Qwen3-TTS |
支持 |
不支持 |
不支持 |
|
|
Qwen3-TTS |
支持 |
不支持 |
不支持 |
|
|
Qwen3-TTS |
支持 |
不支持 |
不支持 |
|
|
Qwen3-TTS |
支持 |
不支持 |
不支持 |
|
|
Qwen3-TTS |
支持 |
不支持 |
支持 |
|
|
Qwen3-TTS |
支持 |
不支持 |
支持 |
|
|
Qwen3-TTS |
支持 |
不支持 |
支持 |
|
|
Qwen3-TTS |
支持 |
不支持 |
支持 |
|
|
声音克隆 |
不支持 |
支持 |
不支持 |
|
|
声音克隆 |
支持 |
支持 |
不支持 |
|
|
声音克隆 |
支持 |
支持 |
不支持 |
|
|
声音设计 |
不支持 |
支持 |
不支持 |
|
|
声音设计 |
支持 |
支持 |
不支持 |
|
|
声音设计 |
支持 |
支持 |
不支持 |
|
|
Qwen-TTS(旧版) |
不支持(整段输出) |
不支持 |
不支持 |
|
|
Qwen-TTS(旧版) |
不支持(整段输出) |
不支持 |
不支持 |
|
|
Qwen-TTS(旧版) |
不支持(整段输出) |
不支持 |
不支持 |
|
|
Qwen-TTS(旧版) |
不支持(整段输出) |
不支持 |
不支持 |
|
|
Qwen-TTS(旧版) |
支持 |
不支持 |
不支持 |
|
|
Qwen-TTS(旧版) |
支持 |
不支持 |
不支持 |
|
|
Qwen-TTS(旧版) |
支持 |
不支持 |
不支持 |
|
|
声音服务 |
不适用 |
支持(音色注册) |
不支持 |
|
|
声音服务 |
不适用 |
支持(音色设计) |
不支持 |
|
|
MiniMax |
支持 |
不支持 |
不支持 |
|
|
MiniMax |
支持 |
不支持 |
不支持 |
|
|
MiniMax |
支持 |
不支持 |
不支持 |
|
|
MiniMax |
支持 |
不支持 |
不支持 |
旧版模型(Qwen-TTS,按 Token 计费)
以下为按 Token 计费的旧版 Qwen-TTS 模型,接入方式分为 HTTP 与 WebSocket。若您已迁移到 Qwen3-TTS,可优先使用前文标准语音合成中的模型。
中国内地
|
模型 |
接入方式 |
说明 |
|
|
HTTP |
非流式合成,按 Token 计费 |
|
|
HTTP |
非流式合成,按 Token 计费 |
|
|
HTTP |
快照版本,按 Token 计费 |
|
|
HTTP |
快照版本,按 Token 计费 |
|
|
WebSocket |
流式合成,按 Token 计费 |
|
|
WebSocket |
流式合成,按 Token 计费 |
|
|
WebSocket |
快照版本,流式合成,按 Token 计费 |