功能发布记录

本文介绍通义听悟产品功能的最新动态和相关文档。

2024年9月30日

功能名称

功能说明

音视频文件离线转写支持多语种混合识别

音视频文件离线转写16K新增中英日韩粤德法俄混合说。同时可通过控制参数识别语种,避免中间过程其他语种乱入的情况。

离线转写新增泰语

自动语种识别新增泰语,即能自动识别中/英/日/韩/粤/泰语的音视频并进行对应语种转写(一个文件仅支持一个语种);同时单独语种也支持识别泰语。

离线转写效率优化

降低离线转写的耗时。

2024年8月31日

功能名称

功能说明

实时8K效率优化

缩短了实时8K ASR的转写延迟。

服务质检可返回发言人

“服务质检”返回句子ID可兼容带入发言人ID的情况。

ITN返回优化

百分比等标点的返回优化。

实时推流的python SDK

发布了实时推流的PythonSDK。

实时多语言自由说升级

新增德法俄语种,即支持实时中英日韩粤德法俄混合说。同时可通过控制参数识别语种,避免中间过程其他语种乱入的情况。

实时说话人分离

支持实时会议中的说话人分离。

发布节省计划

支持预付费节省计划,进一步降低使用成本。

Appkey维度的出账

出账细化到Appkey维度,方便区分各项目的成本情况。

2024年6月30日

功能名称

功能说明

控制台增加用量统计

细化了用量统计与查询。

实时多语言自由说

发布中英日韩粤语自由说。

服务质检

新增服务质检的大模型能力。

2024年5月29日

功能名称

功能说明

价格大幅下调

对标千问,价格大幅下调。

2024年5月21日

功能名称

功能说明

实时记录新增转写语种

16K支持识别中英日韩粤自由说。

2024年4月24日

功能名称

功能说明

价格调整

语音转文字功能统一下调至0.6元/小时;

大模型每个能力0.22元/小时,多个能力调用时叠加计费;

视频PPT提取下调至0.8元/小时;

翻译价格也同步下调。

自定义Prompt

支持对转写结果自定义Prompt,根据自身业务需求,应用大模型各类能力。

创建大模型任务,支持:听悟-Turbo、听悟-Plus、千问-Max三种模型规格。

音视频文件离线转写支持自动语种识别

音视频文件离线转写支持自动语种识别,可自动识别中/英/日/韩/粤语的音视频并进行对应语种转写(一个文件仅支持一个语种)。

用户上传文件时,无需再选择语种,简化用户操作与技术对接流程。

2024年3月26日

功能名称

功能说明

AI模型能力升级

新增支持大模型提炼思维导图的能力,最多4级深度。支持2万字以内的导图生成(约80分钟音频)

2024年3月22日

功能名称

功能说明

文本翻译功能升级

支持中、英、日、韩语间的双向互译。

2024年3月13日

价格调整,原先所有AI能力统一计费,分解为实际使用的能力才会计费(大模型能力调用多个时,会叠加计费,如:同时调用全文摘要和章节速览的费用为:0.4+0.4=0.8元/小时)。

同时费用进一步下降。

2024年2月22日

大模型能力全面升级;英文和中英混与中文能力对齐;实时多语种和离线兼容性;并提高服务稳定性。

功能名称

功能说明

大模型版本升级

全文摘要、章节速览、发言总结三项大模型功能,返回字数上限从250字,增加到1000个字。减少内容遗漏、描述更加详尽。

完善英文大模型能力

英文支持问答提取、场景识别、口语书面化。

中英自由说支持全文概要、章节速览、发言总结、待办事项、问答提取

实时增加韩语

支持韩语语种识别和中韩互译

音视频转写升级

新增格式:

○ 音频:aiff格式。

○ 视频:avi、mpeg、3gp、ogg。

修正音视频时长不准确的问题。

基础性能

提升服务稳定性。

2024年1月8日

通义听悟API服务升级,开放通义千问大模型提供的口语书面化功能。

功能名称

功能说明

口语书面化

能够将音视频的语音转写结果进行原文改写和润色,便于形成书面化的语音转写结果。

2023年11月8日

通义听悟API服务升级,开放通义千问大模型提供的摘要总结、要点提炼、PPT抽取及摘要功能。同时优化了API调用方式,对接成本更小。

功能名称

功能说明

章节速览

能够将音视频内容按主题进行章节切分。并总结章节标题与摘要。

全文摘要

对全部内容,进行摘要总结。

发言总结

在会议中往往有多人的讨论。通义听悟能够区分发言人、帮你总结出每个人不同的观点。发言总结功能可以把谁在会议中表达了什么清晰的整理、呈现出来。

问答对提取

会议中的一问一答往往包含着非常关键和重要的信息。通义听悟的问题回顾功能,能够将会议进程中的提问定位并抽取出来,将大家讨论过的问题一一罗列。

视频PPT抽取及摘要

可将视频中呈现的PPT进行识别和提取,同时对每页PPT演讲的内容进行摘要总结。帮助获取视频PPT的资料,并快速理解对应的内容。

模型能力升级

关键词与待办事项提取,升级为大模型。提炼更加聚焦。

2023年6月1日

通义听悟全面开启公测。公测期用户可体验所有AI功能,含全文概要、章节速览、发言总结等高阶AI功能。通过阿里云主账号登录,可享受以下权益:

  • 每日登录通义听悟,自动获得转写时长。同时扩大存储与剩余时长上限。

  • 每邀请1名好友注册并登录通义听悟账号,邀请者可获得额外转写时长。

  • 输入口令即可获得额外的转写时长。

  • 通义听悟绑定阿里云盘账号,共享云盘超大存储空间。

功能名称

功能说明

实时记录

在任何需要记录的场合,可打开"实时记录"功能,记录会议、培训、访谈等场景的对话信息。语音识别会把内容精准的转换为文字。

多语言翻译

会议中哪怕有来自外国的参会人也不是问题,通义听悟的翻译能力能够将内容进行实时多语言翻译,从而帮助所有人理解掌握会议内容。

问答回顾

会议中的一问一答往往包含着非常关键和重要的信息。通义听悟的问题回顾功能,能够将会议进程中的提问定位并抽取出来,将大家讨论过的问题一一罗列。

发言总结

在会议中往往有多人的讨论。通义听悟能够区分发言人、帮你总结出每个人不同的观点。发言总结功能可以把谁在会议中表达了什么清晰的整理、呈现出来。

本地上传&云盘导入

通过“上传音视频”功能可对已录制好的音频视频文件进行理解分析。

通义听悟已经与阿里云盘打通,存储在阿里云盘中的音频视频内容都可以导入通义听悟进行AI的分析和理解。

全文概要

通过大语言模型强大的理解能力,提炼出忠实于原文的摘要,全文概要用两三百字的篇幅将最重要的信息呈现在你的面前。

章节速览

如果你还想进一步深入了解内容细节,通义听悟会将这段音频视频按时间线分割成章节,向你呈现每一个章节的中心思想和主要内容。通义听悟全新的体验让“一目十行”的“阅读”音视频成为现实。

2023年3月14日

功能分类

功能名称

功能描述

更新类型

文档链接

实时记录接口

实时接口

  • 支持8k单通道音频流

新增

实时记录

通义听悟界面服务

通义听悟网站及微信小程序

  • 上线网站与微信小程序

    (微信搜索通义听悟)

  • 手机号注册个人账号

  • 注册、签到、邀请好友等可赠送转写时长

  • 支持实时记录和音视频文件记录、区分发言人、智能提取关键信息

  • 分享记录并邀请好友注册

  • 收藏和文件夹管理

新增

通义听悟页面服务

2023年2月8日

功能分类

功能名称

功能描述

更新类型

文档链接

音视频文件记录

实时接口

  • 支持实时会议翻译,翻译目标语言为中文、英文或中文+英文

  • 会中可随时开关翻译功能

新增

音视频文件记录

2022年12月12日

功能分类

功能名称

功能描述

更新类型

文档链接

音视频文件记录

实时接口

  • 音频采样率:新增支持8K

新增

音视频文件记录

2022年10月25日

功能分类

功能名称

功能描述

更新类型

文档链接

实时记录

实时接口

  • 支持的输入格式:PCM(无压缩的PCM或WAV文件)、16 bit采样位数、单声道(mono)。

  • 支持的音频采样率:16000 Hz。

  • 支持设置返回结果:是否返回中间识别结果。

  • 支持设置多语言识别:中文、英文、粤语、中英文自由说。

  • 支持设置同步音频转码:转码为比特率128kb/s的mp3格式音频,准实时写入的指定OSS。

  • 支持设置会后纪要智能提取:是否开启有效音频片断检测,是否开启会中识别结果保存,智能提取关键词、关键句、小议题、待办事项。

新增

实时记录

音视频文件记录

实时接口

  • 支持的音频格式:mp3、wav、m4a、wma、aac、ogg、amr、flac、mp4。

  • 文件大小不超过4GB。

  • 音频时长不超过4小时。

  • 音频采样率不低于16K。

  • 需要识别的录音文件必须存放在用户托管到听悟的OSS Bucket上。

  • 支持的调用方式:轮询方式和回调方式。

  • 支持设置多语言识别:中文、英文、粤语、中英文自由说。

新增

音视频文件记录

控制台配置

控制台界面

开通服务、设置权限策略、创建项目、测试效果

新增

快速入门