本文介绍 AI 实时互动语音录制功能的使用方式、回调说明与计费规则。
功能概述
语音录制功能用于录制 AI 实时互动中用户与智能体之间的语音通话,并将录音文件以 WAV 格式存储至您的对象存储(OSS)服务中。
本功能支持以下两种录制模式:
整通录制:将单次语音通话从开始到结束的完整内容,合流录制为一个 WAV 音频文件。
逐句录制:将通话中用户与智能体的每一句话,分别录制成独立的 WAV 音频文件。
说明无法录制由云端数字人方案生成的音频(即数字人朗读文本的语音)。
使用限制:语音录制仅适用于纯语音通话场景。如果通话中包含视频,请使用实时音视频(ARTC)的云端录制。
准备工作
在配置语音录制前,请确保您已完成以下准备工作:
配置说明
前往AI实时互动智能体管理页面。
选择需要配置语音录制的智能体,点击管理,切换到语音录制页签。

点击开启,并且填写配置信息。

点击确认完成配置。
获取录音文件
录音文件生成后,AI 实时互动服务会通过回调事件,将录音文件的相关信息发送至您预设的服务器地址。不同录制模式对应的事件类型如下:
录制模式 | 事件类型 (eventType) | 说明 |
整通录制 |
| 通话结束后,发送包含完整录音文件信息的回调。 |
逐句录制 |
| 每生成一个录音片段后,发送包含该片段信息的回调。 |
关于回调消息体的详细结构,请参见智能体回调。
计费说明
语音录制功能按录音的累计时长计费,计费单位为分钟。每次计费时,不足 1 分钟的时长按 1 分钟计算。
整通录制:按单次通话的总时长计费。例如,一次 5 分 30 秒的通话,按 6 分钟计费。
逐句录制:按单次通话中所有录音片段的时长总和计费。例如,一次通话产生了 3 个片段,时长分别为 20 秒、35 秒和 40 秒,总时长为 95 秒(1 分 35 秒),按 2 分钟计费。
计费单价
中国内地区域:0.009 元/分钟
新加坡地区:0.018 元/分钟