功能发布记录

本文介绍通义听悟产品功能的最新动态和相关文档。

2025320

功能名称

功能说明

身份识别

支持定义并识别对话中各发言人的身份,需与说话人分离同时使用,不额外收费。

对话内容提取支持身份识别输入

对话内容提取功能中,可添加身份信息,强化对指定角色的识别指令。在销售、客服等商务沟通中,极大提高对话内容提取的针对性。

2025224

功能名称

功能说明

支持事件总线

MQ推送升级为对接阿里云事件总线,除可支持MQ后续更新外,还可支持钉钉、邮件等多种推送方式,且无需再进行子账号授权。提高对接的效率和账号安全性,同时对开发者体验更加友好。

2025122

功能名称

功能说明

内容提取

发布对话内容提取功能,支持将对话中的话题、反馈等内容,根据所需分析维度进行提取,在销售场景,对于客户需求、产品态度、竞品评价等有极好的表现

英文创建热词

支持英文单词创建热词

20241130

功能名称

功能说明

多音轨支持

16K的双音轨及多音轨均可支持转写

PPT提取优化

若没有返回PPT演讲摘要,依然可以提取PPT图片

提升性能

缩短文件处理耗时,提升全链路服务的稳定性

20241031

功能名称

功能说明

自动语种识别新增泰语

音视频文件的自动语种识别支持泰语识别及泰语ASR

汽车领域模型支持电话

电话录音也可使用汽车领域模型转写。对汽车电话销售及服务提供支持

全文摘要优化

不再依赖章节速览的结果,缩短了处理时间

2024930

功能名称

功能说明

音视频文件离线转写支持多语种混合识别

音视频文件离线转写16K新增中英日韩粤德法俄混合说。同时可通过控制参数识别语种,避免中间过程其他语种乱入的情况。

离线转写新增泰语

自动语种识别新增泰语,即能自动识别中/英/日/韩/粤/泰语的音视频并进行对应语种转写(一个文件仅支持一个语种);同时单独语种也支持识别泰语。

离线转写效率优化

降低离线转写的耗时。

2024831

功能名称

功能说明

实时8K效率优化

缩短了实时8K ASR的转写延迟。

服务质检可返回发言人

“服务质检”返回句子ID可兼容带入发言人ID的情况。

ITN返回优化

百分比等标点的返回优化。

实时推流的python SDK

发布了实时推流的PythonSDK。

实时多语言自由说升级

新增德法俄语种,即支持实时中英日韩粤德法俄混合说。同时可通过控制参数识别语种,避免中间过程其他语种乱入的情况。

实时说话人分离

支持实时会议中的说话人分离。

发布节省计划

支持预付费节省计划,进一步降低使用成本。

Appkey维度的出账

出账细化到Appkey维度,方便区分各项目的成本情况。

2024630

功能名称

功能说明

控制台增加用量统计

细化了用量统计与查询。

实时多语言自由说

发布中英日韩粤语自由说。

服务质检

新增服务质检的大模型能力。

2024529

功能名称

功能说明

价格大幅下调

对标千问,价格大幅下调。

2024521

功能名称

功能说明

实时记录新增转写语种

16K支持识别中英日韩粤自由说。

2024424

功能名称

功能说明

价格调整

语音转文字功能统一下调至0.6元/小时;

大模型每个能力0.22元/小时,多个能力调用时叠加计费;

视频PPT提取下调至0.8元/小时;

翻译价格也同步下调。

自定义Prompt

支持对转写结果自定义Prompt,根据自身业务需求,应用大模型各类能力。

创建大模型任务,支持:听悟-Turbo、听悟-Plus、千问-Max三种模型规格。

音视频文件离线转写支持自动语种识别

音视频文件离线转写支持自动语种识别,可自动识别中/英/日/韩/粤语的音视频并进行对应语种转写(一个文件仅支持一个语种)。

用户上传文件时,无需再选择语种,简化用户操作与技术对接流程。

2024326

功能名称

功能说明

AI模型能力升级

新增支持大模型提炼思维导图的能力,最多4级深度。支持2万字以内的导图生成(约80分钟音频)

2024322

功能名称

功能说明

文本翻译功能升级

支持中、英、日、韩语间的双向互译。

2024313

价格调整,原先所有AI能力统一计费,分解为实际使用的能力才会计费(大模型能力调用多个时,会叠加计费,如:同时调用全文摘要和章节速览的费用为:0.4+0.4=0.8元/小时)。

同时费用进一步下降。

2024222

大模型能力全面升级;英文和中英混与中文能力对齐;实时多语种和离线兼容性;并提高服务稳定性。

功能名称

功能说明

大模型版本升级

全文摘要、章节速览、发言总结三项大模型功能,返回字数上限从250字,增加到1000个字。减少内容遗漏、描述更加详尽。

完善英文大模型能力

英文支持问答提取、场景识别、口语书面化。

中英自由说支持全文概要、章节速览、发言总结、待办事项、问答提取

实时增加韩语

支持韩语语种识别和中韩互译

音视频转写升级

新增格式:

○ 音频:aiff格式。

○ 视频:avi、mpeg、3gp、ogg。

修正音视频时长不准确的问题。

基础性能

提升服务稳定性。

202418

通义听悟API服务升级,开放通义千问大模型提供的口语书面化功能。

功能名称

功能说明

口语书面化

能够将音视频的语音转写结果进行原文改写和润色,便于形成书面化的语音转写结果。

2023118

通义听悟API服务升级,开放通义千问大模型提供的摘要总结、要点提炼、PPT抽取及摘要功能。同时优化了API调用方式,对接成本更小。

功能名称

功能说明

章节速览

能够将音视频内容按主题进行章节切分。并总结章节标题与摘要。

全文摘要

对全部内容,进行摘要总结。

发言总结

在会议中往往有多人的讨论。通义听悟能够区分发言人、帮你总结出每个人不同的观点。发言总结功能可以把谁在会议中表达了什么清晰的整理、呈现出来。

问答对提取

会议中的一问一答往往包含着非常关键和重要的信息。通义听悟的问题回顾功能,能够将会议进程中的提问定位并抽取出来,将大家讨论过的问题一一罗列。

视频PPT抽取及摘要

可将视频中呈现的PPT进行识别和提取,同时对每页PPT演讲的内容进行摘要总结。帮助获取视频PPT的资料,并快速理解对应的内容。

模型能力升级

关键词与待办事项提取,升级为大模型。提炼更加聚焦。

202361

通义听悟全面开启公测。公测期用户可体验所有AI功能,含全文概要、章节速览、发言总结等高阶AI功能。通过阿里云主账号登录,可享受以下权益:

  • 每日登录通义听悟,自动获得转写时长。同时扩大存储与剩余时长上限。

  • 每邀请1名好友注册并登录通义听悟账号,邀请者可获得额外转写时长。

  • 输入口令即可获得额外的转写时长。

  • 通义听悟绑定阿里云盘账号,共享云盘超大存储空间。

功能名称

功能说明

实时记录

在任何需要记录的场合,可打开"实时记录"功能,记录会议、培训、访谈等场景的对话信息。语音识别会把内容精准的转换为文字。

多语言翻译

会议中哪怕有来自外国的参会人也不是问题,通义听悟的翻译能力能够将内容进行实时多语言翻译,从而帮助所有人理解掌握会议内容。

问答回顾

会议中的一问一答往往包含着非常关键和重要的信息。通义听悟的问题回顾功能,能够将会议进程中的提问定位并抽取出来,将大家讨论过的问题一一罗列。

发言总结

在会议中往往有多人的讨论。通义听悟能够区分发言人、帮你总结出每个人不同的观点。发言总结功能可以把谁在会议中表达了什么清晰的整理、呈现出来。

本地上传&云盘导入

通过“上传音视频”功能可对已录制好的音频视频文件进行理解分析。

通义听悟已经与阿里云盘打通,存储在阿里云盘中的音频视频内容都可以导入通义听悟进行AI的分析和理解。

全文概要

通过大语言模型强大的理解能力,提炼出忠实于原文的摘要,全文概要用两三百字的篇幅将最重要的信息呈现在你的面前。

章节速览

如果你还想进一步深入了解内容细节,通义听悟会将这段音频视频按时间线分割成章节,向你呈现每一个章节的中心思想和主要内容。通义听悟全新的体验让“一目十行”的“阅读”音视频成为现实。

2023314

功能分类

功能名称

功能描述

更新类型

文档链接

实时记录接口

实时接口

  • 支持8k单通道音频流

新增

实时记录

通义听悟界面服务

通义听悟网站及微信小程序

  • 上线网站与微信小程序

    (微信搜索通义听悟)

  • 手机号注册个人账号

  • 注册、签到、邀请好友等可赠送转写时长

  • 支持实时记录和音视频文件记录、区分发言人、智能提取关键信息

  • 分享记录并邀请好友注册

  • 收藏和文件夹管理

新增

通义听悟页面服务

202328

功能分类

功能名称

功能描述

更新类型

文档链接

音视频文件记录

实时接口

  • 支持实时会议翻译,翻译目标语言为中文、英文或中文+英文

  • 会中可随时开关翻译功能

新增

音视频文件记录

20221212

功能分类

功能名称

功能描述

更新类型

文档链接

音视频文件记录

实时接口

  • 音频采样率:新增支持8K

新增

音视频文件记录

20221025

功能分类

功能名称

功能描述

更新类型

文档链接

实时记录

实时接口

  • 支持的输入格式:PCM(无压缩的PCMWAV文件)、16 bit采样位数、单声道(mono)。

  • 支持的音频采样率:16000 Hz。

  • 支持设置返回结果:是否返回中间识别结果。

  • 支持设置多语言识别:中文、英文、粤语、中英文自由说。

  • 支持设置同步音频转码:转码为比特率128kb/smp3格式音频,准实时写入的指定OSS。

  • 支持设置会后纪要智能提取:是否开启有效音频片断检测,是否开启会中识别结果保存,智能提取关键词、关键句、小议题、待办事项。

新增

实时记录

音视频文件记录

实时接口

  • 支持的音频格式:mp3、wav、m4a、wma、aac、ogg、amr、flac、mp4。

  • 文件大小不超过4GB。

  • 音频时长不超过4小时。

  • 音频采样率不低于16K。

  • 需要识别的录音文件必须存放在用户托管到听悟的OSS Bucket上。

  • 支持的调用方式:轮询方式和回调方式。

  • 支持设置多语言识别:中文、英文、粤语、中英文自由说。

新增

音视频文件记录

控制台配置

控制台界面

开通服务、设置权限策略、创建项目、测试效果

新增

快速入门