本文介绍AI实时互动服务的功能发布记录,便于您快速查看最近升级能力。
2026年1月
功能分类 | 功能名称 | 功能描述 | 支持端 | 发布时间 |
服务端 | 声纹降噪2.0 | 采用新一代声纹识别技术,精准分离人声与背景噪音,显著提升通话清晰度。支持预注册和无感注册模式。 | 服务端,控制台 | 2026-01-29 |
多模型语音识别支持 | 内置4种STT语音识别模型,适配不同场景,提升识别准确率。 | 服务端,控制台 | 2026-01-29 | |
百炼大模型语音接入 | 支持接入百炼平台的Fun和Qwen3模型,拓展语音交互能力。 | 服务端,控制台 | 2026-01-29 | |
多模型语音合成支持 | 内置4种TTS语音合成模型,提供更自然、多样的语音输出选择。 | 服务端,控制台 | 2026-01-29 | |
流式文本转语音 | 支持边输入文本边生成语音,降低响应延迟,提升实时性。 | 服务端,控制台 | 2026-01-29 | |
英文替换词优化 | TTS语音合成支持英文替换词配置,满足多语言表达需求。 | 服务端 | 2026-01-29 | |
通话质量数据可视化 | 在数据罗盘中新增单通通话质量分析,帮助用户评估通话表现。 | 控制台 | 2026-01-29 | |
智能自动附和语 | 根据上下文智能生成“嗯”、“好的”等附和语,增强对话自然感。 | 服务端 | 2026-01-29 | |
音视频通话 | 移动端体验优化 | 完善移动端Demo功能,提升用户上手体验与交互流畅度。 | 官方智能体 | 2026-01-29 |
2025年12月
功能分类 | 功能名称 | 功能描述 | 支持端 | 发布时间 |
服务端 | 智能断句优化 | 优化语义断句逻辑,减少等待时间,提升对话流畅性。 | 服务端 | 2025-12-31 |
对话时间戳优化 | 对话记录采用智能体开始回应的时间戳,便于对话追溯与分析。 | 服务端 | 2025-12-31 | |
上下文与断句优化 | 优化上下文逻辑与断句标签,提升对话连贯性与自然度。 | 服务端 | 2025-12-31 | |
大模型调用统计 | 透出大模型调用UID,支持token使用量统计与分析。 | 服务端 | 2025-12-31 | |
音视频通话 | Linux系统SDK支持 | 提供Linux平台SDK及开发示例,拓展端侧部署能力。 | Linux | 2025-12 |
鸿蒙AI通话支持 | 支持鸿蒙系统AI Call SDK,助力原生应用开发。 | Harmony | 2025-12 |
2025年11月
功能分类 | 功能名称 | 功能描述 | 支持端 | 发布时间 |
服务端 | 支持ChatGPT接入 | LLM节点集成ChatGPT模型,拓展智能对话能力。 | 服务端,控制台 | 2025-11-18 |
智能体通话录制 | 支持对智能体通话过程进行录音,便于后续复盘与分析。 | 服务端,控制台 | 2025-11 | |
美西节点开服 | 在美西区域部署服务,降低海外用户延迟,提升稳定性。 | 服务端,控制台 | 2025-11-27 | |
外呼转人工支持 | 外呼通话中可按规则转接至人工坐席,提升服务灵活性。 | 服务端 | 2025-11-27 | |
长时间无响应提醒 | 用户长时间未回应时,自动发送提醒,避免对话中断。 | 服务端 | 2025-11-27 | |
AI响应超时播报 | AI处理超时时自动播放过渡语,提升用户体验。 | 服务端 | 2025-11-27 | |
智能自动挂断 | 支持根据响应内容自动结束通话,适用于特定业务场景。 | 服务端 | 2025-11-18 | |
热词识别支持 | FireRed ASR支持热词配置,提升关键词识别准确率。 | 服务端 | 2025-11-18 | |
音视频通话 | Web体验入口新增 | 控制台新增Web版Demo体验入口,便捷快速试用 | 控制台 | 2025-11-27 |
Linux端AICall完善 | 优化Linux平台AICall功能,提升稳定性与兼容性 | Linux | 2025-11-18 |
2025年10月
功能分类 | 功能名称 | 功能描述 | 支持端 | 发布时间 |
服务端 | 端到端模型接入支持 | 支持接入端到端语音模型,简化处理流程,降低延迟。 | 服务端,控制台 | 2025-10-30 |
敏感词处理优化 | 优化敏感词识别与处理逻辑,提升合规性与安全性。 | 服务端 | 2025-10-30 | |
打断词逻辑优化 | 优化打断词识别机制,提升对话响应灵敏度。 | 服务端 | 2025-10-30 | |
PSTN呼入回调支持 | 智能体支持PSTN呼入时触发回调,便于业务系统集成。 | 服务端,控制台 | 2025-10-30 | |
PSTN数据筛选分析 | 数据罗盘支持按PSTN数据筛选,便于独立分析传统线路表现。 | 控制台,数据&计费 | 2025-10-30 | |
ChatTTS性能提升 | 优化语音合成性能,降低延迟,提升实时响应能力。 | 服务端 | 2025-10-30 | |
VAD语音检测优化 | 持续优化VAD11语音活动检测,提升静音与语音判断准确性。 | 服务端 | 2025-10-30 | |
音视频通话 | Demo界面风格升级 | 优化Demo视觉风格,提升用户体验与专业感。 | Native & Web | 2025-10-30 |
2025年9月
功能分类 | 功能名称 | 功能描述 | 支持端 | 发布时间 |
服务端 | 实例ID消息携带 | 呼入/外呼消息中携带实例ID,便于多实例管理与追踪。 | 服务端,RTC | 2025-09 |
PSTN延迟优化 | 优化PSTN线路传输延迟,目标从5~6秒降至更低。 | 服务端,RTC | 2025-09-23 | |
新增口语化音色 | 新增4个自然口语化音色,支持在线试听与切换。 | 控制台 | 2025-09-23 | |
API密钥安全优化 | 优化API密钥明文展示问题,提升控制台安全性。 | 控制台 | 2025-09-23 | |
音视频通话 | 数字人动作衔接优化 | 解决数字人动作跳变问题,提升视觉流畅度。 | 服务端 | 2025-09-23 |
消息对话 | 断开连接优化 | 优化消息对话断开后的处理机制,提升恢复体验。 | Native & Web | 2025-09-23 |
2025年8月
功能分类 | 功能名称 | 功能描述 | 支持端 | 发布时间 | 相关文档 |
服务端 | 三方TTS优化 | 支持设置分隔符以及定时推送功能。 | 服务端 | 2025-08-14 | |
自定义敏感词 | 支持设置敏感词。 | 控制台 | 2025-08-14 | ||
电话呼入支持配置欢迎语 | 电话呼入支持配置一段音频作为欢迎语内容。 | 服务端 | 2025-08-14 |
2025年7月
功能分类 | 功能名称 | 功能描述 | 支持端 | 发布时间 | 相关文档 |
服务端 | MiniMax支持模型升级 | 支持对接MiniMax Turbo2模型。 | 控制台 | 2025-07-17 | |
声纹识别2.0 | 发布声纹识别2.0体系,实现精准人声识别。 | 服务端 | 2025-07-31 | ||
数据罗盘 | 数据罗盘正式公测。 | 控制台 | 2025-07-31 | ||
电话呼入 | 支持用户通过手机拨打电话号码,呼叫AI智能体能力。 | 控制台 | 2025-07-31 | ||
灵境数字人 | 新增云端渲染数字人。 | 控制台 | 2025-07-31 | ||
音视频通话 | RTOS SDK | 面向AI智能硬件领域,实现超低延时、全双工对话体验。 | 2025-07-31 |
2025年6月
功能分类 | 功能名称 | 功能描述 | 支持端 | 发布时间 | 相关文档 |
服务端 | STT动态传参 | 自研接入STT节点支持客户端动态传参。 | 服务端 | 2025-06-17 | |
阿里云百炼动态传参 | 支持动态设置阿里云百炼智能体Prompt。 | 服务端 | 2025-06-17 | ||
智能体回调 | 新增电话呼出回调。 | 控制台 | 2025-06-30 | ||
语义断句 | 支持对用户输入内容进行语义分析,理解语义结构、意图及语义单元界限。 | 服务端 | 2025-06-30 | ||
音视频通话 | 智能体播报 | 支持智能体播报同步执行对应指令。 | 服务端 | 2025-06-17 | |
电话呼出体验 | 电话呼出支持每日20通电话体验。 | 服务端 | 2025-06-30 |
2025年5月
功能分类 | 功能名称 | 功能描述 | 支持端 | 发布时间 | 相关文档 |
服务端 | 智能体回调 | 支持智能体音频逐句回调。 | 服务端 | 2025-05-16 | |
打断优化 | 智能体单字打断优化。 | 服务端 | 2025-05-16 | ||
语音识别热词 | 支持智能体实例级别配置热词。 | 服务端 | 2025-05-16 | ||
离线视频分析 | 支持离线视频重新分析。 | 服务端 | 2025-05-31 | ||
记忆轮数 | 工作流支持记忆对话轮数配置。 | 控制台 | 2025-05-31 | ||
消息对话 | 富消息输入和输出 | Web端支持输出代码/表格的 Markdown格式。 | Web | 2025-05-31 |
2025年4月
功能分类 | 功能名称 | 功能描述 | 支持端 | 发布时间 | 相关文档 |
服务端 | ASR静默时长 | 允许动态调节ASR静默时长。 | 服务端 | 2025-04-16 | |
官方智能体优化 | 优化官方智能体延时以及Prompt设置。 | 服务端 | 2025-04-16 | ||
音视频通话 | 音视频通话Web端Demo | 音视频通话Demo Web端上线国际站。 | Web | 2025-04-28 | |
支持情绪形象输出 | 支持用户自定义多情绪的数字人形象。 | Native | 2025-04-28 | ||
通话防打断 | 支持用户实现特定音视频内容的防打断功能 | Native & Web | 2025-04-28 |
2025年3月
功能分类 | 功能名称 | 功能描述 | 支持端 | 发布时间 | 相关文档 |
消息对话 | 富消息输入和输出 | 增加消息对话内容丰富性,支持图片输入以及输出图片、超链接等。 | Native & Web | 2025-03-31 | |
音视频通话 | 体验优化 | 优化接通耗时到1秒内。 | Native & Web | 2025-03-31 | |
国际站 | 上线新加坡站点。 | Native | 2025-03-13 | ||
控制台 | 智能体回调 | 支持用户设置智能体逐句回调。 | 控制台 | 2025-03-31 | |
STT节点升级 | STT节点支持自研接入。 | 控制台 | 2025-03-31 | ||
TTS节点升级 |
| 控制台 | 2025-03-13 | ||
消息对话支持多模态大模型接入 | 支持在控制台接入多模态大模型。 | 控制台 | 2025-03-13 |
2025年2月
AICallKit SDK v2.1.0版本新发布,支持以下功能:
功能分类 | 功能名称 | 功能描述 | 支持端 | 发布时间 | 相关文档 |
消息对话 | 消息对话智能体 | Web支持消息对话智能体。 | Web | 2025-02-28 | |
聊天记录优化 | 消息对话聊天记录联动音视频通话。 | Native | 2025-02-28 | ||
支持DeepSeek | 消息对话智能体支持DeepSeek及返回深度思考过程。 | Native | 2025-02-28 | ||
支持业务参数透传 | 支持业务参数透传至下一业务系统。 | Native | 2025-02-28 | ||
支持主动发送文本 | 支持主动发送文本或自定义消息到客户端。 | Native | 2025-02-28 | ||
音视频通话 | 支持特定词打断 | 支持通过设定特定词进行打断。 | Native & Web | 2025-02-28 | |
大模型提示词 | 支持实例级别的设定大模型提示词。 | Native & Web | 2025-02-28 | ||
质检模式 | 视觉理解通话支持选取特定时间和特定截帧数量。 | Native & Web | 2025-02-20 | ||
服务端消息回调 | 支持发送消息给客户注册的回调服务。 | Native & Web | 2025-02-20 | ||
控制台 | LLM支持 | 工作流LLM节点支持配置阿里通义星尘。 | 控制台 | 2025-02-20 |
2025年1月
功能名称 | 功能描述 | 支持端 | 发布时间 | 相关文档 |
消息对话 | 新增消息对话通话类型,支持您以聊天框的形式与智能体进行对话。 | Native | 2025-01-23 | |
LLM输入内容传入 | 新增接口支持LLM输入内容传入。 | API | 2025-01-23 | |
TTS三方插件音色配置 | TTS三方插件(MiniMax)支持配置音色。 | 控制台 | 2025-01-23 | |
STT三方插件语种配置 | STT三方插件(讯飞)支持配置语种。 | 控制台 | 2025-01-23 | |
降噪优化 | 优化降噪会消除前几个词的问题。 | Native & Web | 2025-01-23 | |
智能体/工作流控制台页面优化 | 智能体/工作流界面默认展示所有Region下的信息。 | 控制台 | 2025-01-23 |
2024年12月
功能名称 | 功能描述 | 支持端 | 发布时间 | 相关文档 |
情绪识别 | 智能体能够识别用户当前的情绪,并做出带有情感色彩的回应。 | Native & Web | 2024-12-31 | |
一键上报优化 | 优化Demo中一键上报位置不明显问题。 | Native & Web | 2024-12-31 | |
STT节点配置优化 | 支持STT节点配置语种、静默时间。 | 控制台 | 2024-12-31 | |
TTS节点配置优化 | 支持TTS节点默认音色的语速、音调和试听。 | 控制台 | 2024-12-31 | |
智能体创建优化 |
| 控制台 | 2024-12-31 |
2024年11月
功能名称 | 功能描述 | 支持端 | 发布时间 | 相关文档 |
Web Demo | 支持移动端Web Demo体验。 | Web | 2024-11-15 | |
自定义智能体形象 | 您可以为所创建的智能体上传一张图片,以便在语音通话场景中展示该智能体的形象。 | 控制台 | 2024-11-15 | |
阿里云百炼平台对接 | 您可以阿里云百炼平台发布的AI实时互动应用。 | 控制台 | 2024-11-30 | |
真人接管 | 在用户与智能体进行交互时,如遇无法处理的情况或需作出关键决策时,可以选择由真人进行接管以作出决策。 | API | 2024-11-30 | |
音色复刻 | 您可以使用CosyVoice进行音色复刻。 | API | 2024-11-30 |
2024年10月
功能名称 | 功能描述 | 支持端 | 发布时间 | 相关文档 |
视觉理解通话 | 通过视频方式与智能体进行直接交互,智能体通过分析视频内容进行识别与解释。 | Native & Web | 2024-10-31 | |
对讲机模式 | 用户可以在启动或者通话中设置通话模式为对讲机模式,通过按下按钮与智能体进行交互。 | Native & Web | 2024-10-31 | |
声纹降噪 | 在多人交谈的场景中,智能体通过识别主讲人的声纹特征,更加精确地捕捉和保留主讲人的语音,同时降低对无关噪音的干扰。 | Native | 2024-10-31 | |
STT/TTS对接阿里云百炼 | STT/TTS节点支持阿里云百炼大模型。 | 控制台 | 2024-10-31 | |
实时字幕优化 | 开启智能断句时,实时字幕显示问题优化。 | Native & Web | 2024-10-31 |
2024年9月
功能名称 | 功能描述 | 支持端 | 发布时间 | 相关文档 |
数字人通话优化 | 数字人并发路数、形象、实时字幕问题优化。 | Native | 2024-09-15 | |
智能断句 | 智能体能够自动识别并分割长句或复杂句,以提升文本的可读性和用户体验。 | Native & Web | 2024-09-27 | |
短信验证 | Demo体验支持短信验证登录。 | Native & Web | 2024-09-27 | |
数字人通话 | WebDemo支持数字人通话。 | Native & Web | 2024-09-27 | |
用量统计 | 您可以在控制台查看AI实时互动服务的用量。 | 控制台 | 2024-09-27 | |
AICallKit SDK | 通过集成AICallKit SDK您可以快速开发AI实时互动能力。 | Native & Web | 2024-09-27 |
2024年8月
功能名称 | 功能描述 | 支持端 | 发布时间 | 相关文档 |
TTS三方插件 | TTS工作流节点支持MiniMax第三方插件接入。 | 控制台 | 2024-08-16 | |
STT三方插件 | STT工作流节点支持讯飞第三方插件接入。 | 控制台 | 2024-08-16 | |
优雅下线 | 当需要停止智能体任务时,可以允许智能体任务在完成当前内容输出后再进行停止,以避免对话出现生硬的中断。 | Native & API | 2024-08-16 | |
服务端回调 | 将智能体的运行状态实时回调给客户。 | 控制台 | 2024-08-16 | |
Web Demo | AI实时互动上线Web Demo。 | Web | 2024-08-31 | |
数字人通话 | AI实时互动支持数字人通话类型。 | Native | 2024-08-31 | |
ASR热词 | 您可以定义业务相关的热词,以此提升AI智能体在语音识别中的准确率。 | 控制台 | 2024-08-31 | |
AICallKit SDK | 通过集成AICallKit SDK您可以快速开发AI实时互动能力。 | Native | 2024-08-31 | |
AppServer | 您可以参考AI实时互动服务端源码,将AI实时互动服务端实现集成到您的工程中。 | Native & Web | 2024-08-31 |
2024年7月
功能名称 | 功能描述 | 支持端 | 发布时间 | 相关文档 |
实时通话 | 依托阿里云实时音视频方案,用户可以与AI智能体进行全球范围内的高可靠、低延时通话。 | Native | 2024-07-31 | |
实时工作流 | 您可以使用白屏化的方式,灵活地编排智能体AI的工作流程。
| 控制台 | 2024-07-31 | |
智能打断 | AI智能体智能识别用户的对话打断意图。 | Native | 2024-07-31 | |
智能降噪 | AI智能体将自动过滤对话过程中用户侧产生的嘈杂音。当用户侧有多个人同时说话时,将优先采集音量最大的人声。 | Native | 2024-07-31 | |
AI智能体状态 | 提供AI智能体状态的实时信息:
| Native | 2024-07-31 | |
实时字幕 | AI智能体和用户的对话信息将会被实时转换成文字,并由客户端进行展示。 | Native | 2024-07-31 | |
欢迎词 | 您可以在用户与AI智能体开始对话时设置欢迎词。 | 控制台 & API | 2024-07-31 | |
数据归档 | 用户和AI智能体的通话信息可以被分段归档存储到对象存储OSS。 | API | 2024-07-31 |