本文将为您提供一套全面的AI情感陪伴实践方案,帮助您有效开展AI情感陪伴业务。
背景介绍
AI情感陪伴产品近年来创新活跃且类型多样,涵盖角色扮演、情感陪聊、心理疗愈等。当前AI语聊多基于IM场景的离线文字或语音聊天,GPT-4o的发布推动多模态大模型应用至实时语音或视频交互,带来更真实互动的虚拟娱乐体验。阿里云结合第三方大模型与TTS等技术,实现边消费边创作、剧情多变的实时互动情感陪伴,让用户获得个性化陪伴并激发创作灵感。
方案选型
陪伴形式
在情感陪伴场景,阿里云提供了两种通话形式,您仅需在创建智能体时指定特定的通话类型并集成即可。您可以通过阿里云Demo体验先体验效果。如果您需要接入AI实时互动,请参见音视频通话快速入门。
通话类型 | 纯语音通话 | 数字人通话 |
效果示例 | ||
陪伴形式 |
|
|
费用 | 低 | 中 |
终端SDK
SDK集成详情,请参见开发指南。
SDK | 说明 |
推荐使用
说明
| |
推荐使用:搭载安卓或者iOS操作系统的应用 | |
其他 | 如果您想在Window或者Mac的桌面端进行开发,请通过钉钉搜索群号106730016696,加入群聊联系我们。 |
方案基础功能
个性通话
阿里云开放了丰富的接口能力,允许您为每一个用户提供一场量身定制的通话,将会使得通话的体验大幅提升,我们也建议您这么做。您可以通过设置传入启动通话参数实现这该功能。
设置项 | 说明 | 通话过程是否可修改 |
大模型提示词 | 通常您可以将用户的个人信息作为提示词的一部分,在启动通话的时候进行入参,AI即可实现更真实的情感陪伴。 | 是 |
ASR语种 | 设置语种,如中文、英文... | 是 |
TTS音色 | 设置AI的音色。 | 是 |
数字人形象 | 当您的智能体是VideoAgent时,且您有多个数字人形象,即可在通话时指定具体的形象。 | 否 |
欢迎语 | 针对不同的候选人设置欢迎语,例如:“你好小云,很高兴能再次遇见你...” | 否 |
知识库
如果您有知识库需求,您需要完成以下操作:
使用阿里云百炼创建智能体发布到AI实时互动。智能体发布详情,请参见阿里云百炼发布AI实时互动智能体。
在阿里云百炼侧设置题库。如何设置题库,请参见创建与使用知识库。
用户信息透传模型
在通话过程中,如果当前有多个用户同时在线时,对于同一个大模型而言需要能精准的区分当前的输入来自于哪个用户。 AI实时互动提供了信息透传大模型的能力,以便您能将一些自定义信息诸如UserID等透传到模型侧。 详细内容,请参见业务参数透传阿里云百炼大模型。
用户未讲话识别及处理
您可以通过回调监听的方式通过监听intent_recognized参数来获得每一次用户的讲话时间。详细内容,请参见智能体回调。 以便您在识别到用户长期未讲话时,能够做出对应的业务处理,常见处理方式:
结束对话:请参见StopAIAgentInstance - 停止智能体实例。
播报提醒:当用户X秒未讲话时,AI主动播报一段内容提示用户。请参见如何进行语音播报。
大模型输出下一道题:由于用户并没有讲话,故而若想让AI继续输出,您可以通过文本形式直接驱动模型输出。请参见如何传入文本作为大语言模型输入。
对话内容文本转录 & 音视频录制
您可以对整个陪伴过程中产生的音频数据或者文本数据进行留存。具体操作方式,请参见如何实现数据归档。
方案进阶功能
逐句口语评测
在情感陪伴场景中,若您希望对用户讲的每一句话的音频进行发音评测,AI实时互动为您提供了用户说话逐句音频文件录制的能力,用户讲的每一句话的音频将会被实时录制并存储到您指定的OSS中。您可以针对音频文件进行发音评测。
AI实时互动仅提供了文件逐句录制的能力,暂不提供音频的评测能力。如何设置音频逐句回调,请参见智能体回调。