语音合成

更新时间:
复制为 MD 格式

选择适合语音合成、声音克隆和声音设计场景的模型。

以下列出语音合成、声音服务及旧版按 Token 计费等系列模型,可按场景筛选。通过以下两个问题可以快速缩小选择范围:

  1. 您需要自定义音色,还是使用内置音色即可?

  2. 您需要实时流式输出,还是非流式也可以接受?

标准语音合成还是自定义音色?

标准语音合成

使用内置音色,无需额外配置。选择模型、选择音色即可开始合成。

中国内地

模型

系列

核心优势

cosyvoice-v3.5-plus

CosyVoice

高质量,音色库持续更新

cosyvoice-v3.5-flash

CosyVoice

快速合成

cosyvoice-v3-plus

CosyVoice

高质量,丰富的音色库

cosyvoice-v3-flash

CosyVoice

快速合成

cosyvoice-v2

CosyVoice

上一代高质量合成

cosyvoice-v1

CosyVoice

上一代基础合成

qwen3-tts-flash

Qwen3-TTS

低延迟,高质量

qwen3-tts-flash-2025-11-27

Qwen3-TTS

低延迟,高质量(快照版本)

qwen3-tts-flash-2025-09-18

Qwen3-TTS

低延迟,高质量(快照版本)

qwen3-tts-flash-realtime

Qwen3-TTS

实时流式输出,低延迟

qwen3-tts-flash-realtime-2025-11-27

Qwen3-TTS

实时流式输出,低延迟(快照版本)

qwen3-tts-flash-realtime-2025-09-18

Qwen3-TTS

实时流式输出,低延迟(快照版本)

qwen3-tts-instruct-flash

Qwen3-TTS

指令控制(语速、情绪、风格)

qwen3-tts-instruct-flash-2026-01-26

Qwen3-TTS

指令控制(快照版本)

qwen3-tts-instruct-flash-realtime

Qwen3-TTS

实时流式输出 + 指令控制

qwen3-tts-instruct-flash-realtime-2026-01-22

Qwen3-TTS

实时流式输出 + 指令控制(快照版本)

MiniMax/speech-2.8-hd

MiniMax

高音质语音合成

MiniMax/speech-02-hd

MiniMax

高音质语音合成

MiniMax/speech-2.8-turbo

MiniMax

低延迟快速合成

MiniMax/speech-02-turbo

MiniMax

低延迟快速合成

国际

模型

系列

核心优势

cosyvoice-v3-plus

CosyVoice

高质量,丰富的音色库

cosyvoice-v3-flash

CosyVoice

快速合成

qwen3-tts-flash

Qwen3-TTS

低延迟,高质量

qwen3-tts-flash-2025-11-27

Qwen3-TTS

低延迟,高质量(快照版本)

qwen3-tts-flash-2025-09-18

Qwen3-TTS

低延迟,高质量(快照版本)

qwen3-tts-flash-realtime

Qwen3-TTS

实时流式输出,低延迟

qwen3-tts-flash-realtime-2025-11-27

Qwen3-TTS

实时流式输出,低延迟(快照版本)

qwen3-tts-flash-realtime-2025-09-18

Qwen3-TTS

实时流式输出,低延迟(快照版本)

qwen3-tts-instruct-flash

Qwen3-TTS

指令控制(语速、情绪、风格)

qwen3-tts-instruct-flash-2026-01-26

Qwen3-TTS

指令控制(快照版本)

qwen3-tts-instruct-flash-realtime

Qwen3-TTS

实时流式输出 + 指令控制

qwen3-tts-instruct-flash-realtime-2026-01-22

Qwen3-TTS

实时流式输出 + 指令控制(快照版本)

自定义音色

通过克隆音频样本或文字描述来创建独特的音色。

中国内地

模型

系列

核心优势

cosyvoice-v3.5-plus

CosyVoice

从音频样本克隆音色、实时声音设计

cosyvoice-v3.5-flash

CosyVoice

从音频样本克隆音色、实时声音设计

qwen3-tts-vc-2026-01-22

Qwen3-TTS

从音频样本克隆音色

qwen3-tts-vc-realtime-2026-01-15

Qwen3-TTS

实时声音克隆

qwen3-tts-vc-realtime-2025-11-27

Qwen3-TTS

实时声音克隆

qwen3-tts-vd-2026-01-26

Qwen3-TTS

通过文字描述设计音色

qwen3-tts-vd-realtime-2026-01-15

Qwen3-TTS

实时声音设计

qwen3-tts-vd-realtime-2025-12-16

Qwen3-TTS

实时声音设计

qwen-voice-enrollment

千问声音复刻

声音复刻(音色注册与管理)

qwen-voice-design

千问声音设计

声音设计(文本驱动创建音色)

说明

克隆与设计的区别:声音克隆是从音频样本中复制特定音色。声音设计是通过文字描述创建全新音色(例如"温暖的低音女声")。已有目标音色时用克隆,想从零创建时用设计。

控制语音表现

三种方式,按灵活性排序:

  1. 指令控制qwen3-tts-instruct-flashqwen3-tts-instruct-flash-realtime):用自然语言描述期望的表达方式,可按请求控制语速、情绪和风格,灵活性最高。

  2. 声音设计qwen3-tts-vd-*):通过文字描述生成自定义音色。适用于无需音频样本即可创建品牌音色的场景。

  3. 声音克隆qwen3-tts-vc-*):从音频样本复制已有音色。适用于需要还原特定人物音色的场景。

完整对比

模型

系列

流式

自定义音色

指令控制

cosyvoice-v3.5-plus

CosyVoice

支持

不支持

支持

cosyvoice-v3.5-flash

CosyVoice

支持

不支持

支持

cosyvoice-v3-plus

CosyVoice

支持

不支持

支持

cosyvoice-v3-flash

CosyVoice

支持

不支持

不支持

cosyvoice-v2

CosyVoice

支持

不支持

不支持

cosyvoice-v1

CosyVoice

支持

不支持

不支持

qwen3-tts-flash

Qwen3-TTS

支持

不支持

不支持

qwen3-tts-flash-2025-11-27

Qwen3-TTS

支持

不支持

不支持

qwen3-tts-flash-2025-09-18

Qwen3-TTS

支持

不支持

不支持

qwen3-tts-flash-realtime

Qwen3-TTS

支持

不支持

不支持

qwen3-tts-flash-realtime-2025-11-27

Qwen3-TTS

支持

不支持

不支持

qwen3-tts-flash-realtime-2025-09-18

Qwen3-TTS

支持

不支持

不支持

qwen3-tts-instruct-flash

Qwen3-TTS

支持

不支持

支持

qwen3-tts-instruct-flash-2026-01-26

Qwen3-TTS

支持

不支持

支持

qwen3-tts-instruct-flash-realtime

Qwen3-TTS

支持

不支持

支持

qwen3-tts-instruct-flash-realtime-2026-01-22

Qwen3-TTS

支持

不支持

支持

qwen3-tts-vc-2026-01-22

声音克隆

不支持

支持

不支持

qwen3-tts-vc-realtime-2026-01-15

声音克隆

支持

支持

不支持

qwen3-tts-vc-realtime-2025-11-27

声音克隆

支持

支持

不支持

qwen3-tts-vd-2026-01-26

声音设计

不支持

支持

不支持

qwen3-tts-vd-realtime-2026-01-15

声音设计

支持

支持

不支持

qwen3-tts-vd-realtime-2025-12-16

声音设计

支持

支持

不支持

qwen-tts

Qwen-TTS(旧版)

不支持(整段输出)

不支持

不支持

qwen-tts-latest

Qwen-TTS(旧版)

不支持(整段输出)

不支持

不支持

qwen-tts-2025-05-22

Qwen-TTS(旧版)

不支持(整段输出)

不支持

不支持

qwen-tts-2025-04-10

Qwen-TTS(旧版)

不支持(整段输出)

不支持

不支持

qwen-tts-realtime

Qwen-TTS(旧版)

支持

不支持

不支持

qwen-tts-realtime-latest

Qwen-TTS(旧版)

支持

不支持

不支持

qwen-tts-realtime-2025-07-15

Qwen-TTS(旧版)

支持

不支持

不支持

qwen-voice-enrollment

声音服务

不适用

支持(音色注册)

不支持

qwen-voice-design

声音服务

不适用

支持(音色设计)

不支持

MiniMax/speech-2.8-hd

MiniMax

支持

不支持

不支持

MiniMax/speech-02-hd

MiniMax

支持

不支持

不支持

MiniMax/speech-2.8-turbo

MiniMax

支持

不支持

不支持

MiniMax/speech-02-turbo

MiniMax

支持

不支持

不支持

旧版模型(Qwen-TTS,按 Token 计费)

以下为按 Token 计费的旧版 Qwen-TTS 模型,接入方式分为 HTTP 与 WebSocket。若您已迁移到 Qwen3-TTS,可优先使用前文标准语音合成中的模型。

中国内地

模型

接入方式

说明

qwen-tts

HTTP

非流式合成,按 Token 计费

qwen-tts-latest

HTTP

非流式合成,按 Token 计费

qwen-tts-2025-05-22

HTTP

快照版本,按 Token 计费

qwen-tts-2025-04-10

HTTP

快照版本,按 Token 计费

qwen-tts-realtime

WebSocket

流式合成,按 Token 计费

qwen-tts-realtime-latest

WebSocket

流式合成,按 Token 计费

qwen-tts-realtime-2025-07-15

WebSocket

快照版本,流式合成,按 Token 计费