AI实时互动语音录制

本文介绍 AI 实时互动语音录制功能的使用方式、回调说明与计费规则。

功能概述

语音录制功能用于录制 AI 实时互动中用户与智能体之间的语音通话,并将录音文件以 WAV 格式存储至您的对象存储(OSS)服务中。

本功能支持以下两种录制模式:

  • 整通录制:将单次语音通话从开始到结束的完整内容,合流录制为一个 WAV 音频文件。

  • 逐句录制:将通话中用户与智能体的每一句话,分别录制成独立的 WAV 音频文件。

    说明

    无法录制由云端数字人方案生成的音频(即数字人朗读文本的语音)。

使用限制:语音录制仅适用于纯语音通话场景。如果通话中包含视频,请使用实时音视频(ARTC)的云端录制

准备工作

在配置语音录制前,请确保您已完成以下准备工作:

  • 已开通 AI 实时互动服务并创建了智能体,请参见音视频通话快速入门

  • 已开通对象存储(OSS)服务,并准备好一个与智能体相同地域可用的 Bucket 用于存储录音文件,请参见开通OSS服务

配置说明

  1. 前往AI实时互动智能体管理页面。

  2. 选择需要配置语音录制的智能体,点击管理,切换到语音录制页签。

    image

  3. 点击开启,并且填写配置信息。

    image

  4. 点击确认完成配置。

获取录音文件

录音文件生成后,AI 实时互动服务会通过回调事件,将录音文件的相关信息发送至您预设的服务器地址。不同录制模式对应的事件类型如下:

录制模式

事件类型 (eventType)

说明

整通录制

full_audio_record

通话结束后,发送包含完整录音文件信息的回调。

逐句录制

audio_record

每生成一个录音片段后,发送包含该片段信息的回调。

关于回调消息体的详细结构,请参见智能体回调

计费说明

语音录制功能按录音的累计时长计费,计费单位为分钟。每次计费时,不足 1 分钟的时长按 1 分钟计算。

  • 整通录制:按单次通话的总时长计费。例如,一次 5 分 30 秒的通话,按 6 分钟计费。

  • 逐句录制:按单次通话中所有录音片段的时长总和计费。例如,一次通话产生了 3 个片段,时长分别为 20 秒、35 秒和 40 秒,总时长为 95 秒(1 分 35 秒),按 2 分钟计费。

计费单价

  • 中国内地区域:0.009 元/分钟

  • 新加坡地区:0.018 元/分钟