功能发布记录-智能媒体服务-阿里云-智能媒体服务(IMS)-阿里云帮助中心

文档备案控制台

本文介绍AI实时互动服务的功能发布记录，便于您快速查看最近升级能力。

2026年3月

功能分类	功能名称	功能描述	支持端	发布时间
服务端	长时间无响应自动挂断配置	AI外呼场景下支持配置长时间无响应时的自动挂断策略，提升外呼效率。	服务端	2026-03-31
	PSTN外呼和呼入信息补充	智能体实例详情页面补充展示PSTN外呼和呼入相关配置信息。	服务端	2026-03-31
	数字人通话/视频通话支持通话中修改百炼参数	数字人通话和视频通话场景下，支持通话过程中动态修改百炼大模型参数。	服务端	2026-03-31
	旁路模型视频内容检测	视觉理解能力支持通过旁路模型进行视频内容安全检测。	服务端	2026-03-31
	TTS节点支持声音复刻	TTS节点新增支持CV3、CV3.5和Qwen3模型的声音复刻能力，提供个性化语音合成选择。	服务端,控制台	2026-03-31

2026年1月

功能分类	功能名称	功能描述	支持端	发布时间
服务端	声纹降噪2.0	采用新一代声纹识别技术，精准分离人声与背景噪音，显著提升通话清晰度。支持预注册和无感注册模式。	服务端,控制台	2026-01-29
	多模型语音识别支持	内置4种STT语音识别模型，适配不同场景，提升识别准确率。	服务端,控制台	2026-01-29
	百炼大模型语音接入	支持接入百炼平台的Fun和Qwen3模型，拓展语音交互能力。	服务端,控制台	2026-01-29
	多模型语音合成支持	内置4种TTS语音合成模型，提供更自然、多样的语音输出选择。	服务端,控制台	2026-01-29
	流式文本转语音	支持边输入文本边生成语音，降低响应延迟，提升实时性。	服务端,控制台	2026-01-29
	英文替换词优化	TTS语音合成支持英文替换词配置，满足多语言表达需求。	服务端	2026-01-29
	通话质量数据可视化	在数据罗盘中新增单通通话质量分析，帮助用户评估通话表现。	控制台	2026-01-29
	智能自动附和语	根据上下文智能生成“嗯”、“好的”等附和语，增强对话自然感。	服务端	2026-01-29
音视频通话	移动端体验优化	完善移动端Demo功能，提升用户上手体验与交互流畅度。	官方智能体	2026-01-29

2025年12月

功能分类	功能名称	功能描述	支持端	发布时间
服务端	智能断句优化	优化语义断句逻辑，减少等待时间，提升对话流畅性。	服务端	2025-12-31
	对话时间戳优化	对话记录采用智能体开始回应的时间戳，便于对话追溯与分析。	服务端	2025-12-31
	上下文与断句优化	优化上下文逻辑与断句标签，提升对话连贯性与自然度。	服务端	2025-12-31
	大模型调用统计	透出大模型调用UID，支持token使用量统计与分析。	服务端	2025-12-31
音视频通话	Linux系统SDK支持	提供Linux平台SDK及开发示例，拓展端侧部署能力。	Linux	2025-12
音视频通话	鸿蒙AI通话支持	支持鸿蒙系统AI Call SDK，助力原生应用开发。	Harmony	2025-12

2025年11月

功能分类	功能名称	功能描述	支持端	发布时间
服务端	支持ChatGPT接入	LLM节点集成ChatGPT模型，拓展智能对话能力。	服务端,控制台	2025-11-18
	智能体通话录制	支持对智能体通话过程进行录音，便于后续复盘与分析。	服务端,控制台	2025-11
	美西节点开服	在美西区域部署服务，降低海外用户延迟，提升稳定性。	服务端,控制台	2025-11-27
	外呼转人工支持	外呼通话中可按规则转接至人工坐席，提升服务灵活性。	服务端	2025-11-27
	长时间无响应提醒	用户长时间未回应时，自动发送提醒，避免对话中断。	服务端	2025-11-27
	AI响应超时播报	AI处理超时时自动播放过渡语，提升用户体验。	服务端	2025-11-27
	智能自动挂断	支持根据响应内容自动结束通话，适用于特定业务场景。	服务端	2025-11-18
	热词识别支持	FireRed ASR支持热词配置，提升关键词识别准确率。	服务端	2025-11-18
音视频通话	Web体验入口新增	控制台新增Web版Demo体验入口，便捷快速试用	控制台	2025-11-27
音视频通话	Linux端AICall完善	优化Linux平台AICall功能，提升稳定性与兼容性	Linux	2025-11-18

2025年10月

功能分类	功能名称	功能描述	支持端	发布时间
服务端	端到端模型接入支持	支持接入端到端语音模型，简化处理流程，降低延迟。	服务端,控制台	2025-10-30
	敏感词处理优化	优化敏感词识别与处理逻辑，提升合规性与安全性。	服务端	2025-10-30
	打断词逻辑优化	优化打断词识别机制，提升对话响应灵敏度。	服务端	2025-10-30
	PSTN呼入回调支持	智能体支持PSTN呼入时触发回调，便于业务系统集成。	服务端,控制台	2025-10-30
	PSTN数据筛选分析	数据罗盘支持按PSTN数据筛选，便于独立分析传统线路表现。	控制台,数据&计费	2025-10-30
	ChatTTS性能提升	优化语音合成性能，降低延迟，提升实时响应能力。	服务端	2025-10-30
	VAD语音检测优化	持续优化VAD11语音活动检测，提升静音与语音判断准确性。	服务端	2025-10-30
音视频通话	Demo界面风格升级	优化Demo视觉风格，提升用户体验与专业感。	Native & Web	2025-10-30

2025年9月

功能分类	功能名称	功能描述	支持端	发布时间
服务端	实例ID消息携带	呼入/外呼消息中携带实例ID，便于多实例管理与追踪。	服务端,RTC	2025-09
	PSTN延迟优化	优化PSTN线路传输延迟，目标从5~6秒降至更低。	服务端,RTC	2025-09-23
	新增口语化音色	新增4个自然口语化音色，支持在线试听与切换。	控制台	2025-09-23
	API密钥安全优化	优化API密钥明文展示问题，提升控制台安全性。	控制台	2025-09-23
音视频通话	数字人动作衔接优化	解决数字人动作跳变问题，提升视觉流畅度。	服务端	2025-09-23
消息对话	断开连接优化	优化消息对话断开后的处理机制，提升恢复体验。	Native & Web	2025-09-23

2025年8月

功能分类	功能名称	功能描述	支持端	发布时间	相关文档
服务端	三方TTS优化	支持设置分隔符以及定时推送功能。	服务端	2025-08-14
	自定义敏感词	支持设置敏感词。	控制台	2025-08-14	自定义敏感词
	电话呼入支持配置欢迎语	电话呼入支持配置一段音频作为欢迎语内容。	服务端	2025-08-14

2025年7月

功能分类	功能名称	功能描述	支持端	发布时间	相关文档
服务端	MiniMax支持模型升级	支持对接MiniMax Turbo2模型。	控制台	2025-07-17
	声纹识别2.0	发布声纹识别2.0体系，实现精准人声识别。	服务端	2025-07-31
	数据罗盘	数据罗盘正式公测。	控制台	2025-07-31	数据罗盘
	电话呼入	支持用户通过手机拨打电话号码，呼叫AI智能体能力。	控制台	2025-07-31
	灵境数字人	新增云端渲染数字人。	控制台	2025-07-31
音视频通话	RTOS SDK	面向AI智能硬件领域，实现超低延时、全双工对话体验。		2025-07-31	智能硬件集成

2025年6月

功能分类	功能名称	功能描述	支持端	发布时间	相关文档
服务端	STT动态传参	自研接入STT节点支持客户端动态传参。	服务端	2025-06-17
	阿里云百炼动态传参	支持动态设置阿里云百炼智能体Prompt。	服务端	2025-06-17
	智能体回调	新增电话呼出回调。	控制台	2025-06-30
	语义断句	支持对用户输入内容进行语义分析，理解语义结构、意图及语义单元界限。	服务端	2025-06-30
音视频通话	智能体播报	支持智能体播报同步执行对应指令。	服务端	2025-06-17
音视频通话	电话呼出体验	电话呼出支持每日20通电话体验。	服务端	2025-06-30

2025年5月

功能分类	功能名称	功能描述	支持端	发布时间	相关文档
服务端	智能体回调	支持智能体音频逐句回调。	服务端	2025-05-16	智能体回调
	打断优化	智能体单字打断优化。	服务端	2025-05-16
	语音识别热词	支持智能体实例级别配置热词。	服务端	2025-05-16	语音识别热词
	离线视频分析	支持离线视频重新分析。	服务端	2025-05-31
	记忆轮数	工作流支持记忆对话轮数配置。	控制台	2025-05-31
消息对话	富消息输入和输出	Web端支持输出代码/表格的 Markdown格式。	Web	2025-05-31

2025年4月

功能分类	功能名称	功能描述	支持端	发布时间	相关文档
服务端	ASR静默时长	允许动态调节ASR静默时长。	服务端	2025-04-16
服务端	官方智能体优化	优化官方智能体延时以及Prompt设置。	服务端	2025-04-16
音视频通话	音视频通话Web端Demo	音视频通话Demo Web端上线国际站。	Web	2025-04-28
	支持情绪形象输出	支持用户自定义多情绪的数字人形象。	Native	2025-04-28
	通话防打断	支持用户实现特定音视频内容的防打断功能	Native & Web	2025-04-28

2025年3月

功能分类	功能名称	功能描述	支持端	发布时间	相关文档
消息对话	富消息输入和输出	增加消息对话内容丰富性，支持图片输入以及输出图片、超链接等。	Native & Web	2025-03-31
音视频通话	体验优化	优化接通耗时到1秒内。	Native & Web	2025-03-31
音视频通话	国际站	上线新加坡站点。	Native	2025-03-13
控制台	智能体回调	支持用户设置智能体逐句回调。	控制台	2025-03-31	智能体回调
	STT节点升级	STT节点支持自研接入。	控制台	2025-03-31	STT标准接口
	TTS节点升级	TTS节点升级支持CosyVoice2.0 支持过滤由LLM输入的内容	控制台	2025-03-13
	消息对话支持多模态大模型接入	支持在控制台接入多模态大模型。	控制台	2025-03-13

2025年2月

AICallKit SDK v2.1.0版本新发布，支持以下功能：

功能分类	功能名称	功能描述	支持端	发布时间	相关文档
消息对话	消息对话智能体	Web支持消息对话智能体。	Web	2025-02-28
	聊天记录优化	消息对话聊天记录联动音视频通话。	Native	2025-02-28
	支持DeepSeek	消息对话智能体支持DeepSeek及返回深度思考过程。	Native	2025-02-28
	支持业务参数透传	支持业务参数透传至下一业务系统。	Native	2025-02-28	将用户信息透传百炼或自研模型
	支持主动发送文本	支持主动发送文本或自定义消息到客户端。	Native	2025-02-28
音视频通话	支持特定词打断	支持通过设定特定词进行打断。	Native & Web	2025-02-28	打断智能体讲话
	大模型提示词	支持实例级别的设定大模型提示词。	Native & Web	2025-02-28
	质检模式	视觉理解通话支持选取特定时间和特定截帧数量。	Native & Web	2025-02-20	截帧质检
	服务端消息回调	支持发送消息给客户注册的回调服务。	Native & Web	2025-02-20
控制台	LLM支持	工作流LLM节点支持配置阿里通义星尘。	控制台	2025-02-20

2025年1月

功能名称	功能描述	支持端	发布时间	相关文档
消息对话	新增消息对话通话类型，支持您以聊天框的形式与智能体进行对话。	Native	2025-01-23
LLM输入内容传入	新增接口支持LLM输入内容传入。	API	2025-01-23
TTS三方插件音色配置	TTS三方插件（MiniMax）支持配置音色。	控制台	2025-01-23
STT三方插件语种配置	STT三方插件（讯飞）支持配置语种。	控制台	2025-01-23
降噪优化	优化降噪会消除前几个词的问题。	Native & Web	2025-01-23
智能体/工作流控制台页面优化	智能体/工作流界面默认展示所有Region下的信息。	控制台	2025-01-23

2024年12月

功能名称	功能描述	支持端	发布时间	相关文档
情绪识别	智能体能够识别用户当前的情绪，并做出带有情感色彩的回应。	Native & Web	2024-12-31	如何实现智能体的情绪识别与生成
一键上报优化	优化Demo中一键上报位置不明显问题。	Native & Web	2024-12-31
STT节点配置优化	支持STT节点配置语种、静默时间。	控制台	2024-12-31
TTS节点配置优化	支持TTS节点默认音色的语速、音调和试听。	控制台	2024-12-31
智能体创建优化	创建智能体时，可以自动创建ARTC应用。选择工作流时，支持模糊查询工作流。	控制台	2024-12-31

2024年11月

功能名称	功能描述	支持端	发布时间	相关文档
Web Demo	支持移动端Web Demo体验。	Web	2024-11-15
自定义智能体形象	您可以为所创建的智能体上传一张图片，以便在语音通话场景中展示该智能体的形象。	控制台	2024-11-15
阿里云百炼平台对接	您可以阿里云百炼平台发布的AI实时互动应用。	控制台	2024-11-30	阿里云百炼✖AI实时互动最佳实践
真人接管	在用户与智能体进行交互时，如遇无法处理的情况或需作出关键决策时，可以选择由真人进行接管以作出决策。	API	2024-11-30	如何实现真人客服接管智能体
音色复刻	您可以使用CosyVoice进行音色复刻。	API	2024-11-30	声音复刻

2024年10月

功能名称	功能描述	支持端	发布时间	相关文档
视觉理解通话	通过视频方式与智能体进行直接交互，智能体通过分析视频内容进行识别与解释。	Native & Web	2024-10-31
对讲机模式	用户可以在启动或者通话中设置通话模式为对讲机模式，通过按下按钮与智能体进行交互。	Native & Web	2024-10-31
声纹降噪	在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。	Native	2024-10-31
STT/TTS对接阿里云百炼	STT/TTS节点支持阿里云百炼大模型。	控制台	2024-10-31
实时字幕优化	开启智能断句时，实时字幕显示问题优化。	Native & Web	2024-10-31

2024年9月

功能名称	功能描述	支持端	发布时间	相关文档
数字人通话优化	数字人并发路数、形象、实时字幕问题优化。	Native	2024-09-15
智能断句	智能体能够自动识别并分割长句或复杂句，以提升文本的可读性和用户体验。	Native & Web	2024-09-27
短信验证	Demo体验支持短信验证登录。	Native & Web	2024-09-27
数字人通话	WebDemo支持数字人通话。	Native & Web	2024-09-27
用量统计	您可以在控制台查看AI实时互动服务的用量。	控制台	2024-09-27
AICallKit SDK	通过集成AICallKit SDK您可以快速开发AI实时互动能力。	Native & Web	2024-09-27

2024年8月

功能名称	功能描述	支持端	发布时间	相关文档
TTS三方插件	TTS工作流节点支持MiniMax第三方插件接入。	控制台	2024-08-16
STT三方插件	STT工作流节点支持讯飞第三方插件接入。	控制台	2024-08-16
优雅下线	当需要停止智能体任务时，可以允许智能体任务在完成当前内容输出后再进行停止，以避免对话出现生硬的中断。	Native & API	2024-08-16
服务端回调	将智能体的运行状态实时回调给客户。	控制台	2024-08-16
Web Demo	AI实时互动上线Web Demo。	Web	2024-08-31	Demo体验
数字人通话	AI实时互动支持数字人通话类型。	Native	2024-08-31
ASR热词	您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。	控制台	2024-08-31	语音识别热词
AICallKit SDK	通过集成AICallKit SDK您可以快速开发AI实时互动能力。	Native	2024-08-31	音视频通话智能体集成
AppServer	您可以参考AI实时互动服务端源码，将AI实时互动服务端实现集成到您的工程中。	Native & Web	2024-08-31	服务端参考

2024年7月

功能名称	功能描述	支持端	发布时间	相关文档
实时通话	依托阿里云实时音视频方案，用户可以与AI智能体进行全球范围内的高可靠、低延时通话。	Native	2024-07-31
实时工作流	您可以使用白屏化的方式，灵活地编排智能体AI的工作流程。语音转文字：预置阿里云千问产品能力语音合成（文字转语音）：预置阿里云千问的产品能力。采用标准协议与自主研发的模块进行对接。文生文大语言模型预置阿里云千问的产品能力选择阿里云百炼平台上已有的AI模型采用标准协议与自行研发的模块进行对接。	控制台	2024-07-31	创建与管理工作流模板
智能打断	AI智能体智能识别用户的对话打断意图。	Native	2024-07-31	打断智能体讲话
智能降噪	AI智能体将自动过滤对话过程中用户侧产生的嘈杂音。当用户侧有多个人同时说话时，将优先采集音量最大的人声。	Native	2024-07-31
AI智能体状态	提供AI智能体状态的实时信息：聆听中：用户正在讲话，AI智能体已经接收到相关信息。思考中：用户已经完成说话，AI智能体正在对接收到的内容进行处理，但尚未向用户输出。输出中：AI智能体正在说话。	Native	2024-07-31	智能体回调
实时字幕	AI智能体和用户的对话信息将会被实时转换成文字，并由客户端进行展示。	Native	2024-07-31	实时字幕
欢迎词	您可以在用户与AI智能体开始对话时设置欢迎词。	控制台 & API	2024-07-31
数据归档	用户和AI智能体的通话信息可以被分段归档存储到对象存储OSS。	API	2024-07-31

上一篇：数据罗盘下一篇：开发指南

该文章对您有帮助吗？