通义听悟的最新产品动态和相关文档-工作学习 AI 助手通义听悟(TINGWU)-阿里云帮助中心

本文介绍通义听悟产品功能的最新动态和相关文档。

2025年10月30日

功能名称	功能说明
翻译升级大模型	离在线翻译同时升级qwen-mt最新版本，升级翻译效果

2025年9月30日

功能名称	功能说明
支持fun-asr	在ASR领域模型Transcription.Model中使用fun-asr参数，同时Input.SourceLanguage使用multilingual参数，即可调用百聆最新ASR大模型
关闭敏感词过滤	离在线ASR支持关闭敏感词过滤

2025年7月30日

功能名称	功能说明
支持大模型可选	创建任务过程中，除使用默认大模型组合，也支持选择qwen-plus、qwq和ccai-pro模型
待办事项和问答提取的效果优化	结合两种LLM，通过多轮大模型处理，提高较复杂或长对话的待办事项和问答提取效果

2025年6月30日

功能名称	功能说明
章节速览可调节	章节速览可调节标题长度与章节粒度。效果更具个性化
思维导图和章节速览支持输出语种设置	大模型输出的结果统一以“中文”或“英文”展示，不论原音视频对话语种。方便小语种内容的中文理解

2025年5月30日

功能名称	功能说明
实时支持切换源语种	实时记录过程中，Multilingual支持语种切换
汽车模型优化	离线汽车领域模型提高437个车型的识别准确率新增实时16K汽车领域模型
丰富离线文件处理格式	离线文件可处理M3U8格式文件
自定义Prompt支持句子ID	自定义Prompt支持句子ID的内容处理，方便原文内容定位
各类问题修复	修复身份识别错误的问题修复敏感词不生效的问题

2025年4月30日

功能名称	功能说明
实时翻译中间结果增加时间戳信息	实时翻译的中间结果增加时间戳数据，增强字幕翻译的上屏效果。
实时会议中支持切换翻译语种	支持创建会议时翻译目标语种错误或会议进行中需变更目标语种的修改。
各类问题修复	提高服务质检和对话内容提取的稳定性。修正音视频文件转写结果未严格按句子序号（SentenceID）排序的问题。修复parameters为空无法创建离线任务的问题。修复热词表中含有生僻词时的编译报错问题。

2025年3月20日

功能名称	功能说明
身份识别	支持定义并识别对话中各发言人的身份，需与说话人分离同时使用，不额外收费。
对话内容提取支持身份识别输入	对话内容提取功能中，可添加身份信息，强化对指定角色的识别指令。在销售、客服等商务沟通中，极大提高对话内容提取的针对性。

2025年2月24日

功能名称	功能说明
支持事件总线	将MQ推送升级为对接阿里云事件总线，除可支持MQ后续更新外，还可支持钉钉、邮件等多种推送方式，且无需再进行子账号授权。提高对接的效率和账号安全性，同时对开发者体验更加友好。

2025年1月22日

功能名称	功能说明
内容提取	发布对话内容提取功能，支持将对话中的话题、反馈等内容，根据所需分析维度进行提取，在销售场景，对于客户需求、产品态度、竞品评价等有极好的表现
英文创建热词	支持英文单词创建热词

2024年11月30日

功能名称	功能说明
多音轨支持	16K的双音轨及多音轨均可支持转写
PPT提取优化	若没有返回PPT演讲摘要，依然可以提取PPT图片
提升性能	缩短文件处理耗时，提升全链路服务的稳定性

2024年10月31日

功能名称	功能说明
自动语种识别新增泰语	音视频文件的自动语种识别支持泰语识别及泰语ASR
汽车领域模型支持电话	电话录音也可使用汽车领域模型转写。对汽车电话销售及服务提供支持
全文摘要优化	不再依赖章节速览的结果，缩短了处理时间

2024年9月30日

功能名称	功能说明
音视频文件离线转写支持多语种混合识别	音视频文件离线转写16K新增中英日韩粤德法俄混合说。同时可通过控制参数识别语种，避免中间过程其他语种乱入的情况。
离线转写新增泰语	自动语种识别新增泰语，即能自动识别中/英/日/韩/粤/泰语的音视频并进行对应语种转写（一个文件仅支持一个语种）；同时单独语种也支持识别泰语。
离线转写效率优化	降低离线转写的耗时。

2024年8月31日

功能名称	功能说明
实时8K效率优化	缩短了实时8K ASR的转写延迟。
服务质检可返回发言人	“服务质检”返回句子ID可兼容带入发言人ID的情况。
ITN返回优化	百分比等标点的返回优化。
实时推流的python SDK	发布了实时推流的PythonSDK。
实时多语言自由说升级	新增德法俄语种，即支持实时中英日韩粤德法俄混合说。同时可通过控制参数识别语种，避免中间过程其他语种乱入的情况。
实时说话人分离	支持实时会议中的说话人分离。
发布节省计划	支持预付费节省计划，进一步降低使用成本。
Appkey维度的出账	出账细化到Appkey维度，方便区分各项目的成本情况。

2024年6月30日

功能名称	功能说明
控制台增加用量统计	细化了用量统计与查询。
实时多语言自由说	发布中英日韩粤语自由说。
服务质检	新增服务质检的大模型能力。

2024年5月29日

功能名称	功能说明
价格大幅下调	对标千问，价格大幅下调。

2024年5月21日

功能名称	功能说明
实时记录新增转写语种	16K支持识别中英日韩粤自由说。

2024年4月24日

功能名称	功能说明
价格调整	语音转文字功能统一下调至0.6元/小时；大模型每个能力0.22元/小时，多个能力调用时叠加计费；视频PPT提取下调至0.8元/小时；翻译价格也同步下调。
自定义Prompt	支持对转写结果自定义Prompt，根据自身业务需求，应用大模型各类能力。创建大模型任务，支持：听悟-Turbo、听悟-Plus、千问-Max三种模型规格。
音视频文件离线转写支持自动语种识别	音视频文件离线转写支持自动语种识别，可自动识别中/英/日/韩/粤语的音视频并进行对应语种转写（一个文件仅支持一个语种）。用户上传文件时，无需再选择语种，简化用户操作与技术对接流程。

2024年3月26日

功能名称	功能说明
AI模型能力升级	新增支持大模型提炼思维导图的能力，最多4级深度。支持2万字以内的导图生成（约80分钟音频）

2024年3月22日

功能名称	功能说明
文本翻译功能升级	支持中、英、日、韩语间的双向互译。

2024年3月13日

价格调整，原先所有AI能力统一计费，分解为实际使用的能力才会计费（大模型能力调用多个时，会叠加计费，如：同时调用全文摘要和章节速览的费用为：0.4+0.4=0.8元/小时）。

同时费用进一步下降。

2024年2月22日

大模型能力全面升级；英文和中英混与中文能力对齐；实时多语种和离线兼容性；并提高服务稳定性。

功能名称	功能说明
大模型版本升级	全文摘要、章节速览、发言总结三项大模型功能，返回字数上限从250字，增加到1000个字。减少内容遗漏、描述更加详尽。
完善英文大模型能力	英文支持问答提取、场景识别、口语书面化。中英自由说支持全文概要、章节速览、发言总结、待办事项、问答提取
实时增加韩语	支持韩语语种识别和中韩互译
音视频转写升级	新增格式： ○ 音频：aiff格式。 ○ 视频：avi、mpeg、3gp、ogg。修正音视频时长不准确的问题。
基础性能	提升服务稳定性。

2024年1月8日

通义听悟API服务升级，开放千问大模型提供的口语书面化功能。

功能名称	功能说明
口语书面化	能够将音视频的语音转写结果进行原文改写和润色，便于形成书面化的语音转写结果。

2023年11月8日

通义听悟API服务升级，开放千问大模型提供的摘要总结、要点提炼、PPT抽取及摘要功能。同时优化了API调用方式，对接成本更小。

功能名称	功能说明
章节速览	能够将音视频内容按主题进行章节切分。并总结章节标题与摘要。
全文摘要	对全部内容，进行摘要总结。
发言总结	在会议中往往有多人的讨论。通义听悟能够区分发言人、帮你总结出每个人不同的观点。发言总结功能可以把谁在会议中表达了什么清晰的整理、呈现出来。
问答对提取	会议中的一问一答往往包含着非常关键和重要的信息。通义听悟的问题回顾功能，能够将会议进程中的提问定位并抽取出来，将大家讨论过的问题一一罗列。
视频PPT抽取及摘要	可将视频中呈现的PPT进行识别和提取，同时对每页PPT演讲的内容进行摘要总结。帮助获取视频PPT的资料，并快速理解对应的内容。
模型能力升级	关键词与待办事项提取，升级为大模型。提炼更加聚焦。

2023年6月1日

通义听悟全面开启公测。公测期用户可体验所有AI功能，含全文概要、章节速览、发言总结等高阶AI功能。通过阿里云主账号登录，可享受以下权益：

每日登录通义听悟，自动获得转写时长。同时扩大存储与剩余时长上限。
每邀请1名好友注册并登录通义听悟账号，邀请者可获得额外转写时长。
输入口令即可获得额外的转写时长。
通义听悟绑定阿里云盘账号，共享云盘超大存储空间。

功能名称	功能说明
实时记录	在任何需要记录的场合，可打开"实时记录"功能，记录会议、培训、访谈等场景的对话信息。语音识别会把内容精准的转换为文字。
多语言翻译	会议中哪怕有来自外国的参会人也不是问题，通义听悟的翻译能力能够将内容进行实时多语言翻译，从而帮助所有人理解掌握会议内容。
问答回顾	会议中的一问一答往往包含着非常关键和重要的信息。通义听悟的问题回顾功能，能够将会议进程中的提问定位并抽取出来，将大家讨论过的问题一一罗列。
发言总结	在会议中往往有多人的讨论。通义听悟能够区分发言人、帮你总结出每个人不同的观点。发言总结功能可以把谁在会议中表达了什么清晰的整理、呈现出来。
本地上传&云盘导入	通过“上传音视频”功能可对已录制好的音频视频文件进行理解分析。通义听悟已经与阿里云盘打通，存储在阿里云盘中的音频视频内容都可以导入通义听悟进行AI的分析和理解。
全文概要	通过大语言模型强大的理解能力，提炼出忠实于原文的摘要，全文概要用两三百字的篇幅将最重要的信息呈现在你的面前。
章节速览	如果你还想进一步深入了解内容细节，通义听悟会将这段音频视频按时间线分割成章节，向你呈现每一个章节的中心思想和主要内容。通义听悟全新的体验让“一目十行”的“阅读”音视频成为现实。

2023年3月14日

功能分类	功能名称	功能描述	更新类型	文档链接
实时记录接口	实时接口	支持8k单通道音频流	新增	实时记录
通义听悟界面服务	通义听悟网站及微信小程序	上线网站与微信小程序（微信搜索通义听悟）手机号注册个人账号注册、签到、邀请好友等可赠送转写时长支持实时记录和音视频文件记录、区分发言人、智能提取关键信息分享记录并邀请好友注册收藏和文件夹管理	新增	通义听悟页面服务

2023年2月8日

功能分类	功能名称	功能描述	更新类型	文档链接
音视频文件记录	实时接口	支持实时会议翻译，翻译目标语言为中文、英文或中文+英文会中可随时开关翻译功能	新增	音视频文件记录

2022年12月12日

功能分类	功能名称	功能描述	更新类型	文档链接
音视频文件记录	实时接口	音频采样率：新增支持8K	新增	音视频文件记录

2022年10月25日

功能分类	功能名称	功能描述	更新类型	文档链接
实时记录	实时接口	支持的输入格式：PCM（无压缩的PCM或WAV文件）、16 bit采样位数、单声道（mono）。支持的音频采样率：16000 Hz。支持设置返回结果：是否返回中间识别结果。支持设置多语言识别：中文、英文、粤语、中英文自由说。支持设置同步音频转码：转码为比特率128kb/s的mp3格式音频，准实时写入的指定OSS。支持设置会后纪要智能提取：是否开启有效音频片断检测，是否开启会中识别结果保存，智能提取关键词、关键句、小议题、待办事项。	新增	实时记录
音视频文件记录	实时接口	支持的音频格式：mp3、wav、m4a、wma、aac、ogg、amr、flac、mp4。文件大小不超过4GB。音频时长不超过4小时。音频采样率不低于16K。需要识别的录音文件必须存放在用户托管到听悟的OSS Bucket上。支持的调用方式：轮询方式和回调方式。支持设置多语言识别：中文、英文、粤语、中英文自由说。	新增	音视频文件记录
控制台配置	控制台界面	开通服务、设置权限策略、创建项目、测试效果	新增	快速入门