功能发布记录

更新时间:2025-01-22 05:51:03

本文介绍通义听悟产品功能的最新动态和相关文档。

2025122

功能名称

功能说明

功能名称

功能说明

内容提取

发布对话内容提取功能,支持将对话中的话题、反馈等内容,根据所需分析维度进行提取,在销售场景,对于客户需求、产品态度、竞品评价等有极好的表现

英文创建热词

支持英文单词创建热词

20241130

功能名称

功能说明

功能名称

功能说明

多音轨支持

16K的双音轨及多音轨均可支持转写

PPT提取优化

若没有返回PPT演讲摘要,依然可以提取PPT图片

提升性能

缩短文件处理耗时,提升全链路服务的稳定性

20241031

功能名称

功能说明

功能名称

功能说明

自动语种识别新增泰语

音视频文件的自动语种识别支持泰语识别及泰语ASR

汽车领域模型支持电话

电话录音也可使用汽车领域模型转写。对汽车电话销售及服务提供支持

全文摘要优化

不再依赖章节速览的结果,缩短了处理时间

2024930

功能名称

功能说明

功能名称

功能说明

音视频文件离线转写支持多语种混合识别

音视频文件离线转写16K新增中英日韩粤德法俄混合说。同时可通过控制参数识别语种,避免中间过程其他语种乱入的情况。

离线转写新增泰语

自动语种识别新增泰语,即能自动识别中/英/日/韩/粤/泰语的音视频并进行对应语种转写(一个文件仅支持一个语种);同时单独语种也支持识别泰语。

离线转写效率优化

降低离线转写的耗时。

2024831

功能名称

功能说明

功能名称

功能说明

实时8K效率优化

缩短了实时8K ASR的转写延迟。

服务质检可返回发言人

“服务质检”返回句子ID可兼容带入发言人ID的情况。

ITN返回优化

百分比等标点的返回优化。

实时推流的python SDK

发布了实时推流的PythonSDK。

实时多语言自由说升级

新增德法俄语种,即支持实时中英日韩粤德法俄混合说。同时可通过控制参数识别语种,避免中间过程其他语种乱入的情况。

实时说话人分离

支持实时会议中的说话人分离。

发布节省计划

支持预付费节省计划,进一步降低使用成本。

Appkey维度的出账

出账细化到Appkey维度,方便区分各项目的成本情况。

2024630

功能名称

功能说明

功能名称

功能说明

控制台增加用量统计

细化了用量统计与查询。

实时多语言自由说

发布中英日韩粤语自由说。

服务质检

新增服务质检的大模型能力。

2024529

功能名称

功能说明

功能名称

功能说明

价格大幅下调

对标千问,价格大幅下调。

2024521

功能名称

功能说明

功能名称

功能说明

实时记录新增转写语种

16K支持识别中英日韩粤自由说。

2024424

功能名称

功能说明

功能名称

功能说明

价格调整

语音转文字功能统一下调至0.6元/小时;

大模型每个能力0.22元/小时,多个能力调用时叠加计费;

视频PPT提取下调至0.8元/小时;

翻译价格也同步下调。

自定义Prompt

支持对转写结果自定义Prompt,根据自身业务需求,应用大模型各类能力。

创建大模型任务,支持:听悟-Turbo、听悟-Plus、千问-Max三种模型规格。

音视频文件离线转写支持自动语种识别

音视频文件离线转写支持自动语种识别,可自动识别中/英/日/韩/粤语的音视频并进行对应语种转写(一个文件仅支持一个语种)。

用户上传文件时,无需再选择语种,简化用户操作与技术对接流程。

2024326

功能名称

功能说明

功能名称

功能说明

AI模型能力升级

新增支持大模型提炼思维导图的能力,最多4级深度。支持2万字以内的导图生成(约80分钟音频)

2024322

功能名称

功能说明

功能名称

功能说明

文本翻译功能升级

支持中、英、日、韩语间的双向互译。

2024313

价格调整,原先所有AI能力统一计费,分解为实际使用的能力才会计费(大模型能力调用多个时,会叠加计费,如:同时调用全文摘要和章节速览的费用为:0.4+0.4=0.8元/小时)。

同时费用进一步下降。

2024222

大模型能力全面升级;英文和中英混与中文能力对齐;实时多语种和离线兼容性;并提高服务稳定性。

功能名称

功能说明

功能名称

功能说明

大模型版本升级

全文摘要、章节速览、发言总结三项大模型功能,返回字数上限从250字,增加到1000个字。减少内容遗漏、描述更加详尽。

完善英文大模型能力

英文支持问答提取、场景识别、口语书面化。

中英自由说支持全文概要、章节速览、发言总结、待办事项、问答提取

实时增加韩语

支持韩语语种识别和中韩互译

音视频转写升级

新增格式:

○ 音频:aiff格式。

○ 视频:avi、mpeg、3gp、ogg。

修正音视频时长不准确的问题。

基础性能

提升服务稳定性。

202418

通义听悟API服务升级,开放通义千问大模型提供的口语书面化功能。

功能名称

功能说明

功能名称

功能说明

口语书面化

能够将音视频的语音转写结果进行原文改写和润色,便于形成书面化的语音转写结果。

2023118

通义听悟API服务升级,开放通义千问大模型提供的摘要总结、要点提炼、PPT抽取及摘要功能。同时优化了API调用方式,对接成本更小。

功能名称

功能说明

功能名称

功能说明

章节速览

能够将音视频内容按主题进行章节切分。并总结章节标题与摘要。

全文摘要

对全部内容,进行摘要总结。

发言总结

在会议中往往有多人的讨论。通义听悟能够区分发言人、帮你总结出每个人不同的观点。发言总结功能可以把谁在会议中表达了什么清晰的整理、呈现出来。

问答对提取

会议中的一问一答往往包含着非常关键和重要的信息。通义听悟的问题回顾功能,能够将会议进程中的提问定位并抽取出来,将大家讨论过的问题一一罗列。

视频PPT抽取及摘要

可将视频中呈现的PPT进行识别和提取,同时对每页PPT演讲的内容进行摘要总结。帮助获取视频PPT的资料,并快速理解对应的内容。

模型能力升级

关键词与待办事项提取,升级为大模型。提炼更加聚焦。

202361

通义听悟全面开启公测。公测期用户可体验所有AI功能,含全文概要、章节速览、发言总结等高阶AI功能。通过阿里云主账号登录,可享受以下权益:

  • 每日登录通义听悟,自动获得转写时长。同时扩大存储与剩余时长上限。

  • 每邀请1名好友注册并登录通义听悟账号,邀请者可获得额外转写时长。

  • 输入口令即可获得额外的转写时长。

  • 通义听悟绑定阿里云盘账号,共享云盘超大存储空间。

功能名称

功能说明

功能名称

功能说明

实时记录

在任何需要记录的场合,可打开"实时记录"功能,记录会议、培训、访谈等场景的对话信息。语音识别会把内容精准的转换为文字。

多语言翻译

会议中哪怕有来自外国的参会人也不是问题,通义听悟的翻译能力能够将内容进行实时多语言翻译,从而帮助所有人理解掌握会议内容。

问答回顾

会议中的一问一答往往包含着非常关键和重要的信息。通义听悟的问题回顾功能,能够将会议进程中的提问定位并抽取出来,将大家讨论过的问题一一罗列。

发言总结

在会议中往往有多人的讨论。通义听悟能够区分发言人、帮你总结出每个人不同的观点。发言总结功能可以把谁在会议中表达了什么清晰的整理、呈现出来。

本地上传&云盘导入

通过“上传音视频”功能可对已录制好的音频视频文件进行理解分析。

通义听悟已经与阿里云盘打通,存储在阿里云盘中的音频视频内容都可以导入通义听悟进行AI的分析和理解。

全文概要

通过大语言模型强大的理解能力,提炼出忠实于原文的摘要,全文概要用两三百字的篇幅将最重要的信息呈现在你的面前。

章节速览

如果你还想进一步深入了解内容细节,通义听悟会将这段音频视频按时间线分割成章节,向你呈现每一个章节的中心思想和主要内容。通义听悟全新的体验让“一目十行”的“阅读”音视频成为现实。

2023314

功能分类

功能名称

功能描述

更新类型

文档链接

功能分类

功能名称

功能描述

更新类型

文档链接

实时记录接口

实时接口

  • 支持8k单通道音频流

新增

实时记录

通义听悟界面服务

通义听悟网站及微信小程序

  • 上线网站与微信小程序

    (微信搜索通义听悟)

  • 手机号注册个人账号

  • 注册、签到、邀请好友等可赠送转写时长

  • 支持实时记录和音视频文件记录、区分发言人、智能提取关键信息

  • 分享记录并邀请好友注册

  • 收藏和文件夹管理

新增

通义听悟页面服务

202328

功能分类

功能名称

功能描述

更新类型

文档链接

功能分类

功能名称

功能描述

更新类型

文档链接

音视频文件记录

实时接口

  • 支持实时会议翻译,翻译目标语言为中文、英文或中文+英文

  • 会中可随时开关翻译功能

新增

音视频文件记录

20221212

功能分类

功能名称

功能描述

更新类型

文档链接

功能分类

功能名称

功能描述

更新类型

文档链接

音视频文件记录

实时接口

  • 音频采样率:新增支持8K

新增

音视频文件记录

20221025

功能分类

功能名称

功能描述

更新类型

文档链接

功能分类

功能名称

功能描述

更新类型

文档链接

实时记录

实时接口

  • 支持的输入格式:PCM(无压缩的PCMWAV文件)、16 bit采样位数、单声道(mono)。

  • 支持的音频采样率:16000 Hz。

  • 支持设置返回结果:是否返回中间识别结果。

  • 支持设置多语言识别:中文、英文、粤语、中英文自由说。

  • 支持设置同步音频转码:转码为比特率128kb/smp3格式音频,准实时写入的指定OSS。

  • 支持设置会后纪要智能提取:是否开启有效音频片断检测,是否开启会中识别结果保存,智能提取关键词、关键句、小议题、待办事项。

新增

实时记录

音视频文件记录

实时接口

  • 支持的音频格式:mp3、wav、m4a、wma、aac、ogg、amr、flac、mp4。

  • 文件大小不超过4GB。

  • 音频时长不超过4小时。

  • 音频采样率不低于16K。

  • 需要识别的录音文件必须存放在用户托管到听悟的OSS Bucket上。

  • 支持的调用方式:轮询方式和回调方式。

  • 支持设置多语言识别:中文、英文、粤语、中英文自由说。

新增

音视频文件记录

控制台配置

控制台界面

开通服务、设置权限策略、创建项目、测试效果

新增

快速入门

  • 本页导读 (0)
  • 2025年1月22日
  • 2024年11月30日
  • 2024年10月31日
  • 2024年9月30日
  • 2024年8月31日
  • 2024年6月30日
  • 2024年5月29日
  • 2024年5月21日
  • 2024年4月24日
  • 2024年3月26日
  • 2024年3月22日
  • 2024年3月13日
  • 2024年2月22日
  • 2024年1月8日
  • 2023年11月8日
  • 2023年6月1日
  • 2023年3月14日
  • 2023年2月8日
  • 2022年12月12日
  • 2022年10月25日