请求体 | 非流式curl -X POST "https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation" \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "Minimax/speech-2.8-hd",
"input": {
"text": "今天是不是很开心呀(laughs),当然了!",
"voice_setting": {
"voice_id": "male-qn-qingse",
"speed": 1,
"vol": 1,
"pitch": 0,
"emotion": "happy"
},
"audio_setting": {
"sample_rate": 32000,
"bitrate": 128000,
"format": "mp3",
"channel": 1
},
"pronunciation_dict": {
"tone": [
"处理/(chu3)(li3)",
"危险/dangerous"
]
},
"subtitle_enable": false
}
}'
流式curl -X POST "https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation" \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-H "X-DashScope-SSE: enable" \
-d '{
"model": "Minimax/speech-2.8-hd",
"input": {
"text": "今天是不是很开心呀(laughs),当然了!",
"voice_setting": {
"voice_id": "male-qn-qingse",
"speed": 1,
"vol": 1,
"pitch": 0,
"emotion": "happy"
},
"audio_setting": {
"sample_rate": 32000,
"bitrate": 128000,
"format": "mp3",
"channel": 1
},
"pronunciation_dict": {
"tone": [
"处理/(chu3)(li3)",
"危险/dangerous"
]
},
"subtitle_enable": false
}
}'
|
model string (必选) 模型名称。 |
input object (必选) 属性 text string (必选) 待合成语音的文本。 长度限制小于 10000 字符,若文本长度大于 3000 字符,推荐使用流式输出。 voice_setting object (必选) 属性 voice_id string (必选) 设置音色ID。 若需要设置混合音色,请设置 timbre_weights 参数,本参数设置为空值。可使用声音管理API 查询系统支持的全部音色。 speed float (可选) 默认值为1.0 设置语速。 取值范围:[0.5, 2.0]。 vol float (可选) 默认值为1.0 设置音量。 取值范围:(0.0, 10.0]。 pitch integer (可选) 默认值为0 设置音高。 取值范围:[-12, 12]。 emotion string (可选) 无默认值 设置情感。模型会根据输入文本自动匹配合适的情感,一般无需手动指定。 取值范围: happy:高兴
sad:悲伤
angry:愤怒
fearful:害怕
disgusted:厌恶
surprised:惊讶
calm:中性
whisper:低语
说明 speech-2.8-hd, speech-2.8-turbo 模型不支持 whisper
text_normalization boolean (可选) 默认值为false 是否启用中文、英语文本规范化,开启后可提升数字阅读场景的性能,但会略微增加延迟。 取值范围: latex_read boolean (可选) 默认值为false 是否启用朗读 LaTeX 公式的功能。 取值范围: 示例: x=2a−b±b2−4ac 如上公式应表示为:$$x = \\frac{-b \\pm \\sqrt{b^2 - 4ac}}{2a}$$。 audio_setting object (可选) 属性 sample_rate integer (可选) 默认值为32000 设置生成的音频的采样率(单位为Hz)。 取值范围: 8000
16000
22050
24000
32000
44100
bitrate integer (可选) 默认值为128000 设置生成的音频的码率(单位kbps)。 取值范围: format string (可选) 默认值为mp3 设置生成的音频的格式。 取值范围: channel integer (可选) 默认值为1 设置生成的音频的声道数。 取值范围: force_cbr boolean (可选) 默认值为false 是否以恒定码率进行音频编码。 取值范围: pronunciation_dict object (可选) 属性 tone string[] (可选) 定义需要特殊标注的文字或符号对应的注音或发音替换规则。 使用 / 作为分隔符。 在中文文本中,声调用数字表示:一声为 1,二声为 2,三声为 3,四声为 4,轻声为 5。 示例: ["燕少飞/(yan4)(shao3)(fei1)", "omg/oh my god"]
timbre_weights object[] (可选) 若需要设置混合音色,请对该参数进行设置。最多支持 4 种音色混合。 属性 voice_id string (必选) 设置音色ID。 weight integer (必选) 设置音色所占权重,必须与 voice_id 同步填写。单一音色取值占比越高,合成音色与该音色相似度越高。 取值范围:[1, 100]。 language_boost string (可选) 默认值为null 是否增强对指定的小语种和方言的识别能力。可设置为 auto 让模型自主判断。 取值范围(点击查看): Chinese
Chinese,Yue
English
Arabic
Russian
Spanish
French
Portuguese
German
Turkish
Dutch
Ukrainian
Vietnamese
Indonesian
Japanese
Italian
Korean
Thai
Polish
Romanian
Greek
Czech
Finnish
Hindi
Bulgarian
Danish
Hebrew
Malay
Persian
Slovak
Swedish
Croatian
Filipino
Hungarian
Norwegian
Slovenian
Catalan
Nynorsk
Tamil
Afrikaans
auto
voice_modify object (可选) 设置声音效果,该参数支持的音频格式: 属性 pitch integer (可选) 无默认值 设置音高(低沉/明亮)。 数值越低声音越低沉,数值越高声音越明亮。 取值范围:[-100, 100]。 intensity integer (可选) 无默认值 设置强度(力量感/柔和)。 数值越低声音越刚劲,数值越高声音越轻柔。 取值范围:[-100, 100]。 timbre integer (可选) 无默认值 设置音色明暗程度(磁性/清脆)。 数值越低声音越浑厚,数值越高声音越清脆。 取值范围:[-100, 100]。 sound_effects string (可选) 无默认值 设置音效。 取值范围: spacious_echo:空旷回音
auditorium_echo:礼堂广播
lofi_telephone:电话失真
robotic:电音
subtitle_enable boolean (可选) 默认值为false 是否开启字幕。 取值范围:
说明 该参数仅在非流式输出场景下有效,且仅对 speech-2.8-hd, speech-2.8-turbo, speech-2.6-hd, speech-2.6-turbo, speech-02-hd, speech-02-turbo, speech-01-hd, speech-01-turbo 模型有效。 output_format string (可选) 默认值为hex 设置输出结果形式。 取值范围:
说明 该参数仅在非流式场景中生效(流式场景只返回hex形式)。 aigc_watermark boolean (可选) 默认值为false 是否在合成音频末尾添加 AIGC 隐性标识。 取值范围: |