请求体
|
非流式curl -X POST "https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation" \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "MiniMax/speech-2.8-hd",
"input": {
"text": "今天是不是很开心呀(laughs),当然了!",
"voice_setting": {
"voice_id": "male-qn-qingse",
"speed": 1,
"vol": 1,
"pitch": 0,
"emotion": "happy"
},
"audio_setting": {
"sample_rate": 32000,
"bitrate": 128000,
"format": "mp3",
"channel": 1
},
"pronunciation_dict": {
"tone": [
"处理/(chu3)(li3)",
"危险/dangerous"
]
},
"subtitle_enable": false
}
}'
流式curl -X POST "https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation" \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-H "X-DashScope-SSE: enable" \
-d '{
"model": "MiniMax/speech-2.8-hd",
"input": {
"text": "今天是不是很开心呀(laughs),当然了!",
"voice_setting": {
"voice_id": "male-qn-qingse",
"speed": 1,
"vol": 1,
"pitch": 0,
"emotion": "happy"
},
"audio_setting": {
"sample_rate": 32000,
"bitrate": 128000,
"format": "mp3",
"channel": 1
},
"pronunciation_dict": {
"tone": [
"处理/(chu3)(li3)",
"危险/dangerous"
]
},
"subtitle_enable": false
}
}'
|
|
model string (必选)
模型名称。支持:
|
MiniMax/speech-2.8-hd
|
|
MiniMax/speech-02-hd
|
|
MiniMax/speech-2.8-turbo
|
|
MiniMax/speech-02-turbo
|
|
|
input object (必选)
属性
text string (必选)
待合成语音的文本。
长度限制小于 10000 字符,若文本长度大于 3000 字符,推荐使用流式输出。
stream_options object (可选)
流式输出的配置项,仅在请求头 X-DashScope-SSE: enable 时生效。
属性
exclude_aggregated_audio boolean (可选) 默认值为false
控制流式输出的合成结束帧中,audio 字段是否返回本次合成的完整音频(即此前所有合成中分块拼接后的整段 hex 数据)。
取值范围:
说明
该参数仅在流式输出场景下生效;非流式输出场景下设置无效。
voice_setting object (必选)
属性
voice_id string (必选)
设置音色ID。
若需要设置混合音色,请设置 timbre_weights 参数,本参数设置为空值。
speed float (可选) 默认值为1.0
设置语速。
取值范围:[0.5, 2.0]。
vol float (可选) 默认值为1.0
设置音量。
取值范围:(0.0, 10.0]。
pitch integer (可选) 默认值为0
设置音高。
取值范围:[-12, 12]。
emotion string (可选) 无默认值
设置情感。模型会根据输入文本自动匹配合适的情感,一般无需手动指定。
取值范围:
-
happy:高兴
-
sad:悲伤
-
angry:愤怒
-
fearful:害怕
-
disgusted:厌恶
-
surprised:惊讶
-
calm:中性
-
whisper:低语
说明
speech-2.8-hd, speech-2.8-turbo 模型不支持 whisper
text_normalization boolean (可选) 默认值为false
是否启用中文、英语文本规范化,开启后可提升数字阅读场景的性能,但会略微增加延迟。
取值范围:
latex_read boolean (可选) 默认值为false
是否启用朗读 LaTeX 公式的功能。
取值范围:
示例:
x=2a−b±b2−4ac
如上公式应表示为:$$x = \\frac{-b \\pm \\sqrt{b^2 - 4ac}}{2a}$$。
audio_setting object (可选)
属性
sample_rate integer (可选) 默认值为32000
设置生成的音频的采样率(单位为Hz)。
取值范围:
-
8000
-
16000
-
22050
-
24000
-
32000
-
44100
bitrate integer (可选) 默认值为128000
设置生成的音频的码率(单位kbps)。
取值范围:
-
32000
-
64000
-
128000
-
256000
说明
该参数仅在format参数为mp3时生效。对于其他格式,该参数将被忽略。
format string (可选) 默认值为mp3
设置生成的音频的格式。
取值范围:
channel integer (可选) 默认值为1
设置生成的音频的声道数。
取值范围:
force_cbr boolean (可选) 默认值为false
是否以恒定码率进行音频编码。
取值范围:
pronunciation_dict object (可选)
属性
tone string[] (可选)
定义需要特殊标注的文字或符号对应的注音或发音替换规则。
使用 / 作为分隔符。
在中文文本中,声调用数字表示:一声为 1,二声为 2,三声为 3,四声为 4,轻声为 5。
示例:
["燕少飞/(yan4)(shao3)(fei1)", "omg/oh my god"]
timbre_weights object[] (可选)
若需要设置混合音色,请对该参数进行设置。最多支持 4 种音色混合。
属性
voice_id string (必选)
设置音色ID。
weight integer (必选)
设置音色所占权重,必须与 voice_id 同步填写。单一音色取值占比越高,合成音色与该音色相似度越高。
取值范围:[1, 100]。
language_boost string (可选) 默认值为null
是否增强对指定的小语种和方言的识别能力。可设置为 auto 让模型自主判断。
取值范围(点击查看):
-
Chinese
-
Chinese,Yue
-
English
-
Arabic
-
Russian
-
Spanish
-
French
-
Portuguese
-
German
-
Turkish
-
Dutch
-
Ukrainian
-
Vietnamese
-
Indonesian
-
Japanese
-
Italian
-
Korean
-
Thai
-
Polish
-
Romanian
-
Greek
-
Czech
-
Finnish
-
Hindi
-
Bulgarian
-
Danish
-
Hebrew
-
Malay
-
Persian
-
Slovak
-
Swedish
-
Croatian
-
Filipino
-
Hungarian
-
Norwegian
-
Slovenian
-
Catalan
-
Nynorsk
-
Tamil
-
Afrikaans
-
auto
voice_modify object (可选)
设置声音效果,该参数支持的音频格式:
属性
pitch integer (可选) 无默认值
设置音高(低沉/明亮)。
数值越低声音越低沉,数值越高声音越明亮。
取值范围:[-100, 100]。
intensity integer (可选) 无默认值
设置强度(力量感/柔和)。
数值越低声音越刚劲,数值越高声音越轻柔。
取值范围:[-100, 100]。
timbre integer (可选) 无默认值
设置音色明暗程度(磁性/清脆)。
数值越低声音越浑厚,数值越高声音越清脆。
取值范围:[-100, 100]。
sound_effects string (可选) 无默认值
设置音效。
取值范围:
-
spacious_echo:空旷回音
-
auditorium_echo:礼堂广播
-
lofi_telephone:电话失真
-
robotic:电音
subtitle_enable boolean (可选) 默认值为false
是否开启字幕。
取值范围:
说明
该参数仅在非流式输出场景下有效,且仅对 speech-2.8-hd, speech-2.8-turbo, speech-2.6-hd, speech-2.6-turbo, speech-02-hd, speech-02-turbo, speech-01-hd, speech-01-turbo 模型有效。
output_format string (可选) 默认值为hex
设置输出结果形式。
取值范围:
说明
该参数仅在非流式场景中生效(流式场景只返回hex形式)。
aigc_watermark boolean (可选) 默认值为false
是否在合成音频末尾添加 AIGC 隐性标识。
取值范围:
|