MiniMax音色复刻API参考

更新时间:
复制为 MD 格式

支持的模型

音色复刻请求会生成一段试听音频,试听音频按所选模型的同步语音合成单价额外计费。

模型名称

试听单价(同步合成,每万字符)

音色复刻(每次)

免费额度(注)

MiniMax/speech-2.8-hd

3.5

首次使用克隆音色合成语音时,将扣除 9.9 元音色解锁费用。

MiniMax/speech-02-hd

3.5

MiniMax/speech-2.8-turbo

2

MiniMax/speech-02-turbo

2

URL

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

HTTP请求地址:POST https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation

SDK调用配置的base_url:https://dashscope.aliyuncs.com/api/v1

Headers

参数

类型

是否必选

说明

Authorization

string

鉴权令牌,格式为Bearer <your_api_key>,使用时,将“<your_api_key>”替换为实际的API Key。

Content-Type

string

固定为application/json; charset=utf-8

请求体

音色复刻

curl -X POST 'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation' \
  -H "Authorization: Bearer ${DASH_APIKEY}" \
  -H 'Content-Type: application/json; charset=utf-8' \
  -d '{
    "input": {
      "action": "voice_clone",
      "voice_id": "bailian-test-voice-22",
      "audio_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/cosyvoice/cosyvoice-zeroshot-sample.wav",
      "text": "你说是什么就是什么"
    },
    "model": "MiniMax/speech-2.8-turbo"
  }'

model string (必选)

指定合成试听音频使用的语音模型。

input object (必选)

属性

action string (必选)

需要进行的操作,支持设置为:voice_clone(声音克隆)

audio_url string (必选)

需要复刻的音频文件 URL,音频需符合以下规范:

  • 音频格式需为:mp3、m4a、wav 格式

  • 音频的时长最少应不低于 10 秒,最长应不超过 5 分钟

  • 音频文件大小需不超过 20 MB

clone_prompt object (可选)

音色复刻示例音频,提供本参数将有助于增强语音合成的音色相似度和稳定性。若使用本参数,需准备一小段示例音频。

属性

prompt_audio string (可选)

示例音频文件 URL,音频需符合以下规范:

  • 音频格式需为:mp3、m4a、wav 格式

  • 音频时长小于 8 秒

  • 音频文件大小需不超过 20 MB

prompt_text string (可选)

示例音频的对应文本,需确保和音频内容一致,句末需有标点符号做结尾。

text string (必选)

复刻声音期望试听的内容。限制 1000 字符以内。

试听将根据字符数正常收取语音合成费用,收费标准MiniMax模型价格
  • 语气词标签:仅当模型选择 speech-2.8-hd 或 speech-2.8-turbo 时,支持在文本中插入语气词标签。支持的语气词:(laughs)(笑声)、(chuckle)(轻笑)、(coughs)(咳嗽)、(clear-throat)(清嗓子)、(groans)(呻吟)、(breath)(正常换气)、(pant)(喘气)、(inhale)(吸气)、(exhale)(呼气)、(gasps)(倒吸气)、(sniffs)(吸鼻子)、(sighs)(叹气)、(snorts)(喷鼻息)、(burps)(打嗝)、(lip-smacking)(咂嘴)、(humming)(哼唱)、(hissing)(嘶嘶声)、(emm)(嗯)、(whistles)(口哨)、(sneezes)(喷嚏)、(crying)(抽泣)、(applause)(鼓掌)

voice_id string (必选)

克隆音色的 voice_id,正确示例:"MiniMax001"。用户进行自定义 voice_id 时需注意:

  • 自定义的 voice_id 长度范围[8,256]

  • 首字符必须为英文字母

  • 允许数字、字母、-、_

  • 末位字符不可为 -、_

  • voice_id 不可与已有 id 重复,否则会报错

该参数全局唯一,建议使用时间戳等个性化信息命名。

language_boostenum<string>(可选)默认值:null

是否增强对指定的小语种和方言的识别能力。可设置为 auto 让模型自主判断。

可用选项

Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans,auto

need_noise_reduction boolean (可选)默认值:false

音频复刻参数,表示是否开启降噪,默认值为 false。

need_volume_normalizationboolean (可选)默认值:false

是否开启音量归一化。

aigc_watermarkboolean (可选)默认值:false

是否在合成试听音频的末尾添加音频节奏标识。

返回体

音色复刻

{
    "output": {
        "base_resp": {
            "status_code": 0,
            "status_msg": "success"
        },
        "demo_audio": "https://minimax-algeng-chat-tts.oss-cn-wulanchabu.aliyuncs.com/audio%2Feffect%2F05fdf023562aea84632d2a8c01c2366f_1773059375796_1311.mp3?Expires=1773232175&OSSAccessKeyId=LTAI5tGLnRTkBjLuYPjNcKQ8&Signature=z2GwvhFZ3d33BggWRGU8Jb24sZA%3D",
        "input_sensitive": false,
        "input_sensitive_type": 0
    },
    "usage": {
        "characters": 18
    },
    "request_id": "b1160386-ebf1-913f-9275-ef176c5e1c91"
}

request_id string

本次调用的唯一标识符。

output object

属性

input_sensitiveboolean

输入音频是否命中风控。

input_sensitive_type boolean

输入音频命中风控的类型,取值为以下其一:

  • 0:正常

  • 1:严重违规

  • 2:色情

  • 3:广告

  • 4:违禁

  • 5:谩骂

  • 6:暴恐

  • 7:其他

demo_audiostring

链接形式的试听音频。

base_respobject

属性

status_codeinteger

状态码

  • 0: 请求结果正常

  • 1000:未知错误

  • 1001:超时

  • 1002:触发限流

  • 1004:鉴权失败

  • 1013:服务内部错误

  • 2013:输入格式信息不正常

  • 2038:无复刻权限,请检查账号认证状态

更多内容可查看错误码查询列表了解详情

status_msgstring

状态详情

usage object

本次请求的字符用量。

属性

characters integer

输入文本的字符数。