MiniMax同步语音合成API参考

更新时间:
复制为 MD 格式

支持的模型

模型名称

合成单价(同步合成,每万字符)

音色复刻(每次)

免费额度(注)

MiniMax/speech-2.8-hd

3.5

9.9

(在首次使用复刻出来的音色进行语音合成的时候收取)

MiniMax/speech-02-hd

3.5

MiniMax/speech-2.8-turbo

2

MiniMax/speech-02-turbo

2

URL

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

HTTP请求地址:POST https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation

SDK调用配置的base_url:https://dashscope.aliyuncs.com/api/v1

Headers

参数

类型

是否必选

说明

Authorization

string

鉴权令牌,格式为Bearer <your_api_key>,使用时,将“<your_api_key>”替换为实际的API Key。

Content-Type

string

请求体的媒体类型,固定为application/json

X-DashScope-SSE

string

是否启用 SSE(Server-Sent Events)流式输出。设为 enable 时,服务端将以流式事件逐步返回结果,适用于实时性要求较高的场景。不设置时,使用默认的同步响应模式。

请求体

非流式

curl -X POST "https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation" \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "model": "Minimax/speech-2.8-hd",
  "input": {
    "text": "今天是不是很开心呀(laughs),当然了!",
    "voice_setting": {
      "voice_id": "male-qn-qingse",
      "speed": 1,
      "vol": 1,
      "pitch": 0,
      "emotion": "happy"
    },
    "audio_setting": {
      "sample_rate": 32000,
      "bitrate": 128000,
      "format": "mp3",
      "channel": 1
    },
    "pronunciation_dict": {
      "tone": [
        "处理/(chu3)(li3)",
        "危险/dangerous"
      ]
    },
    "subtitle_enable": false
  }
}'

流式

curl -X POST "https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation" \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-H "X-DashScope-SSE: enable" \
-d '{
  "model": "Minimax/speech-2.8-hd",
  "input": {
    "text": "今天是不是很开心呀(laughs),当然了!",
    "voice_setting": {
      "voice_id": "male-qn-qingse",
      "speed": 1,
      "vol": 1,
      "pitch": 0,
      "emotion": "happy"
    },
    "audio_setting": {
      "sample_rate": 32000,
      "bitrate": 128000,
      "format": "mp3",
      "channel": 1
    },
    "pronunciation_dict": {
      "tone": [
        "处理/(chu3)(li3)",
        "危险/dangerous"
      ]
    },
    "subtitle_enable": false
  }
}'

model string (必选)

模型名称。

input object (必选)

属性

text string (必选)

待合成语音的文本。

长度限制小于 10000 字符,若文本长度大于 3000 字符,推荐使用流式输出。

voice_setting object (必选)

属性

voice_id string (必选)

设置音色ID。

若需要设置混合音色,请设置 timbre_weights 参数,本参数设置为空值。可使用声音管理API 查询系统支持的全部音色。

speed float (可选) 默认值为1.0

设置语速。

取值范围:[0.5, 2.0]

vol float (可选) 默认值为1.0

设置音量。

取值范围:(0.0, 10.0]

pitch integer (可选) 默认值为0

设置音高。

取值范围:[-12, 12]

emotion string (可选) 无默认值

设置情感。模型会根据输入文本自动匹配合适的情感,一般无需手动指定。

取值范围:

  • happy:高兴

  • sad:悲伤

  • angry:愤怒

  • fearful:害怕

  • disgusted:厌恶

  • surprised:惊讶

  • calm:中性

  • whisper:低语

说明

speech-2.8-hdspeech-2.8-turbo 模型不支持 whisper

text_normalization boolean (可选) 默认值为false

是否启用中文、英语文本规范化,开启后可提升数字阅读场景的性能,但会略微增加延迟。

取值范围:

  • true:开启

  • false:关闭

latex_read boolean (可选) 默认值为false

是否启用朗读 LaTeX 公式的功能。

取值范围:

  • true:开启

  • false:关闭

示例:

如上公式应表示为:$$x = \\frac{-b \\pm \\sqrt{b^2 - 4ac}}{2a}$$

说明
  • 仅支持中文,开启该功能后,language_boost参数会被设置为Chinese

  • 请求中的公式需要在公式的首尾加上 $$

  • 请求中公式若有 "\",需转义成 "\\"

audio_setting object (可选)

属性

sample_rate integer (可选) 默认值为32000

设置生成的音频的采样率(单位为Hz)。

取值范围:

  • 8000

  • 16000

  • 22050

  • 24000

  • 32000

  • 44100

bitrate integer (可选) 默认值为128000

设置生成的音频的码率(单位kbps)。

取值范围:

  • 32000

  • 64000

  • 128000

  • 256000

说明

该参数仅在format参数为mp3时生效。

format string (可选) 默认值为mp3

设置生成的音频的格式。

取值范围:

  • mp3

  • pcm

  • flac

  • wav

说明

wav格式仅支持非流式输出。

channel integer (可选) 默认值为1

设置生成的音频的声道数。

取值范围:

  • 1:单声道

  • 2:双声道

force_cbr boolean (可选) 默认值为false

是否以恒定码率进行音频编码。

取值范围:

  • true:是

  • false:否

说明

仅流式输出且音频格式为mp3时该参数生效。

pronunciation_dict object (可选)

属性

tone string[] (可选)

定义需要特殊标注的文字或符号对应的注音或发音替换规则。

使用 / 作为分隔符。

在中文文本中,声调用数字表示:一声为 1,二声为 2,三声为 3,四声为 4,轻声为 5。

示例:

["燕少飞/(yan4)(shao3)(fei1)", "omg/oh my god"]

timbre_weights object[] (可选)

若需要设置混合音色,请对该参数进行设置。最多支持 4 种音色混合。

属性

voice_id string (必选)

设置音色ID。

weight integer (必选)

设置音色所占权重,必须与 voice_id 同步填写。单一音色取值占比越高,合成音色与该音色相似度越高。

取值范围:[1, 100]

language_boost string (可选) 默认值为null

是否增强对指定的小语种和方言的识别能力。可设置为 auto 让模型自主判断。

取值范围(点击查看):

  • Chinese

  • Chinese,Yue

  • English

  • Arabic

  • Russian

  • Spanish

  • French

  • Portuguese

  • German

  • Turkish

  • Dutch

  • Ukrainian

  • Vietnamese

  • Indonesian

  • Japanese

  • Italian

  • Korean

  • Thai

  • Polish

  • Romanian

  • Greek

  • Czech

  • Finnish

  • Hindi

  • Bulgarian

  • Danish

  • Hebrew

  • Malay

  • Persian

  • Slovak

  • Swedish

  • Croatian

  • Filipino

  • Hungarian

  • Norwegian

  • Slovenian

  • Catalan

  • Nynorsk

  • Tamil

  • Afrikaans

  • auto

voice_modify object (可选)

设置声音效果,该参数支持的音频格式:

  • 非流式:mp3wavflac

  • 流式:mp3

属性

pitch integer (可选) 无默认值

设置音高(低沉/明亮)。

数值越低声音越低沉,数值越高声音越明亮。

取值范围:[-100, 100]

intensity integer (可选) 无默认值

设置强度(力量感/柔和)。

数值越低声音越刚劲,数值越高声音越轻柔。

取值范围:[-100, 100]

timbre integer (可选) 无默认值

设置音色明暗程度(磁性/清脆)。

数值越低声音越浑厚,数值越高声音越清脆。

取值范围:[-100, 100]

sound_effects string (可选) 无默认值

设置音效。

取值范围:

  • spacious_echo:空旷回音

  • auditorium_echo:礼堂广播

  • lofi_telephone:电话失真

  • robotic:电音

subtitle_enable boolean (可选) 默认值为false

是否开启字幕。

取值范围:

  • true:是

  • false:否

说明

该参数仅在非流式输出场景下有效,且仅对 speech-2.8-hd, speech-2.8-turbo, speech-2.6-hd, speech-2.6-turbo, speech-02-hd, speech-02-turbo, speech-01-hd, speech-01-turbo 模型有效。

output_format string (可选) 默认值为hex

设置输出结果形式。

取值范围:

  • url:语音合成结果以URL形式返回,有效期为24小时

  • hex:语音合成结果以二进制形式返回

说明

该参数仅在非流式场景中生效(流式场景只返回hex形式)。

aigc_watermark boolean (可选) 默认值为false

是否在合成音频末尾添加 AIGC 隐性标识。

取值范围:

  • true:是

  • false:否

说明

该参数仅在非流式输出场景下有效。

返回体

非流式

{
  "output": {
    "audio": {
      "data": "<base64语音>",
    },
  },
  "usage": {
    "characters": 195
  },
  "request_id": "63661fac-4bbd-440d-a61d-************"
}

流式

{
  "output": {
    "audio": <base64音频>
  },
  "usage": {
    "characters": 195
  },
  "request_id": "63661fac-4bbd-440d-a61d-************"
}

request_id string

本次调用的唯一标识符。

output object

模型返回的数据。

属性

audio object

合成的音频数据。格式与请求(output_format参数)中指定的输出格式一致。

属性

data string

合成后的音频数据,采用 hex 编码,格式与请求中指定的输出格式一致。

usage object

本次请求的字符用量。

属性

characters integer

输入文本的字符数。