AI口语陪练场景的详细实践方案-智能媒体服务-阿里云

本文将为您提供一套全面的AI口语陪练实践方案，帮助您有效开展 AI 口语陪练业务，满足学习者提升口语能力的需求。

背景介绍

AI 口语陪练解决了日常口语学习中伙伴难寻、时空受限的问题，能够随时响应练习需求。它能基于学习者的历史数据，精准分析问题并定制个性化练习内容，同时提供即时反馈和纠错建议，弥补传统练习中难以全面纠正错误的不足。此外，AI 还能模拟多种场景与话题，拓宽语言应用范围，并通过轻松无压力的学习环境提升学习者的自信心，帮助学员克服心理障碍，有效提高口语能力。

方案选型

陪练形式

在AI口语陪练场景，阿里云提供了两种通话形式，您仅需在创建智能体时指定特定的通话类型并集成即可。您可以通过阿里云Demo体验先体验效果。如果您需要接入AI实时互动，请参见音视频通话快速入门。

通话类型	纯语音通话	数字人通话
效果示例
陪练形式	学员：语音 AI陪练：语音	学员：语音 AI陪练：视频
费用	低	中

终端SDK

SDK集成详情，请参见开发指南。

SDK	说明
Web SDK	推荐使用桌面端浏览器：如Chrome等；移动端H5：如支付宝的H5、钉钉的H5、微信小程序H5等 APP内置webview 说明不推荐使用手机原生浏览器，部分设备存在对WebRTC不兼容的情况。暂不支持微信小程序原生组件使用，建议使用微信小程序H5。接入详情，请参见如何在微信小程序中接入Web SDK。
Android/iOS SDK	推荐使用：搭载安卓或者iOS操作系统的应用
其他	如果您想在Window或者Mac的桌面端进行开发，请通过钉钉搜索群号106730016696，加入群聊联系我们。

方案基础功能

个性通话和场景切换

阿里云开放了丰富的接口能力，允许您为每一个用户提供一场量身定制的通话服务，将会使得通话的体验大幅提升，我们也建议您这么做。您可以通过设置传入启动通话参数实现这一目标。AI实时互动允许在用户不退出通话的情况下切换对话应用场景，例如从“问路场景对话练习”切换到“购物场景对话练习，您需要按照实际应用场景重新定义大模型提示词。

设置项	说明	通话过程是否可修改
大模型提示词	通常您可以将学员的个人信息作为提示词的一部分，在启动通话的时候进行入参，AI即可实现更有针对性的练习。	是
ASR语种	设置语种，如中文、英文...	是
TTS音色	设置AI的音色。	是
数字人形象	当您的智能体是VideoAgent时，且您有多个数字人形象，即可在通话时指定具体的形象。	否
欢迎语	针对不同的候选人设置欢迎语，例如：“你好小云，今天将要模拟的是购物场景...”	否

知识库

如果您有知识库需求，您需要完成以下操作：

使用阿里云百炼创建智能体发布到AI实时互动。智能体发布详情，请参见阿里云百炼发布AI实时互动智能体。
在阿里云百炼侧设置题库。如何设置题库，请参见创建与使用知识库。

为用户发送自定义信息

在通话的过程中，若您希望实时为客户端下发诸如卡片、题目等信息，AI实时互动为您提供了专属的信息下发通道，客户端在接受到您的自定义信息后，可以自行做资源下载和交互渲染等任意业务行为。

阿里云为您提供了两套解决方案：

方案一：您可以通过您的APPServer将自定义信息下发到客户端。详细内容，请参见如何主动向客户端发送自定义消息。
方案二：您也可以在大模型的响应中携带自定义信息，该信息会随着字幕实时到达客户端。
说明
您可以将指令藏在模型的回复内容中，并通过特殊符合例如{}、[]等进行标记。（操作方式：控制台-->工作流-->TTS节点-->过滤播报）被标记的内容将不会被语音播报，您仅需解析该内容即可做自定义业务处理。

用户信息透传模型

在通话过程中，如果当前有多个用户同时在线时，对于同一个大模型而言需要能精准的区分当前的输入来自于哪个用户。 AI实时互动提供了信息透传大模型的能力，以便您能将一些自定义信息诸如UserID等透传到模型侧。详细内容，请参见业务参数透传阿里云百炼大模型。

用户未讲话识别及处理

您可以通过回调监听的方式通过监听intent_recognized参数来获得每一次用户的讲话时间。详细内容，请参见智能体回调。以便您在识别到用户长期未讲话时，能够做出对应的业务处理，常见处理方式：

结束对话：请参见StopAIAgentInstance - 停止智能体实例。
播报提醒：当用户X秒未讲话时，AI主动播报一段内容提示用户。请参见如何进行语音播报。
大模型输出下一道题：由于用户并没有讲话，故而若想让AI继续输出，您可以通过文本形式直接驱动模型输出。请参见如何传入文本作为大语言模型输入。

对话内容文本转录 & 音视频录制

您可以对整个陪练过程中产生的音频数据或者文本数据进行留存。具体操作方式，请参见如何实现数据归档。

方案进阶功能

逐句口语评测

在口语陪练场景中，若您希望对用户讲的每一句话的音频进行发音评测，AI实时互动为您提供了用户说话逐句音频文件录制的能力，用户讲的每一句话的音频将会被实时录制并存储到您指定的OSS中。您可以针对音频文件进行发音评测。

说明

AI实时互动仅提供了文件逐句录制的能力，暂不提供音频的评测能力。如何设置音频逐句回调，请参见智能体回调。