多模态交互开发套件FAQ-大模型服务平台百炼-阿里云

功能介绍

CosyVoice-V2 支持的音色请参见：语音合成-CosyVoice/Sambert中 CosyVoice音色列表（CosyVoice-V2）。

Sambert 支持的音色请参见：语音合成-CosyVoice/Sambert中 Sambert音色列表。

通义千问-TTS 支持的音色请参见：实时语音合成-通义千问。

端侧SDK里集成了语音唤醒、端侧 VAD（Voice Activity Detection，语音活动检测）、AEC 回声消除（Acoustic Echo Cancellation）、定向识音算法，详情参见端侧算法。

Push2Talk（按键通话）模式：按住按钮开始录音，松开按钮停止录音；

Tap2Talk（点击通话）模式：点击一次开始录音，再次点击结束录音；

Duplex（全双工）模式：支持同时双向通信，可实现边听边说的实时交流。

每次开启新会话时，要用新的 task_id。task_id 作为会话标识，可能会影响配置或状态判断。以SDK方式调用时，则无需关注，SDK会自动为新会话生成 task_id。

在配置提示词时，您可以通过「自定义变量」实现这一功能，配置方法请参考提示词。

目前只支持主工作空间，请使用主空间的 workspaceId 接入。

百炼多模交互开发套件可以在海外接入使用，但尚不支持海外服务节点部署。海外接入时，降低网络延迟的方案请咨询商务。

检查文本中是否有特殊格式或字符，如Markdown。TTS模型目前会将Markdown内容念出来，您可以约束模型不输出Markdown格式的内容，或对输出文本做特殊字符过滤。

检查音频文件格式：

Tap2Talk/Duplex 模式使用云端 VAD（Voice Activity Detection，语音活动检测）检测音频尾点。使用音频文件调用时，需确保音频文件末尾至少包含 800-1000ms 静音，否则无法结束识别。

目前「理解与生成」模块的提示词不直接对 Agent 生效，您可以在「视频通话」和「拍照问答」Agent 中，设置对应的提示词。支持一键导入「理解与生成」模块的提示词及对应变量配置。

支持后付费与License模式。每个账号可获取一次10元免费试用额度用于后付费模式。购买节省计划可抵扣多模态交互所有按量付费项目。详细计费说明、购买链接参见：产品计费。

语音翻译：启动一次语音翻译到退出，算一次调用。

实时视频通话：启动后，一问一答算作一次调用。