AI实时互动语音录制功能支持整通和逐句两种模式，录音存储至OSS。-智能媒体服务(IMS)-阿里云帮助中心

功能概述

语音录制功能用于录制 AI 实时互动中用户与智能体之间的语音通话，并将录音文件以 WAV 格式存储至您的对象存储（OSS）服务中。

本功能支持以下两种录制模式：

使用限制：语音录制仅适用于纯语音通话场景。如果通话中包含视频，请使用实时音视频（ARTC）的云端录制。

在配置语音录制前，请确保您已完成以下准备工作：

前往AI实时互动智能体管理页面。
选择需要配置语音录制的智能体，点击管理，切换到语音录制页签。

页签中显示整通录制（将语音通话内容合流录制到OSS，仅支持纯语音通话场景）和逐句录制（每句归档为单独文件，使用云端数字人将无法获得数字人讲话音频）两种模式说明。当前语音录制状态为未开启，可单击开启或修改配置进行录制设置。
点击开启，并且填写配置信息。

在语音录制弹窗中，勾选录制类型：整通录制和用户、智能体音频逐句回调。分别为两种录制类型配置回调地址（必填，优先使用HTTPS）、鉴权Token和oss存储位置（必填，单击选择指定OSS路径）。可单击批量填入快速填写回调地址和鉴权Token。
点击确认完成配置。

录音文件生成后，AI 实时互动服务会通过回调事件，将录音文件的相关信息发送至您预设的服务器地址。不同录制模式对应的事件类型如下：

关于回调消息体的详细结构，请参见智能体回调。

语音录制功能按录音的累计时长计费，计费单位为分钟。每次计费时，不足 1 分钟的时长按 1 分钟计算。

整通录制：按单次通话的总时长计费。例如，一次 5 分 30 秒的通话，按 6 分钟计费。
逐句录制：按单次通话中所有录音片段的时长总和计费。例如，一次通话产生了 3 个片段，时长分别为 20 秒、35 秒和 40 秒，总时长为 95 秒（1 分 35 秒），按 2 分钟计费。

计费单价