本文介绍通义听悟产品功能的最新动态和相关文档。
2024年9月30日
功能名称 | 功能说明 |
音视频文件离线转写支持多语种混合识别 | 音视频文件离线转写16K新增中英日韩粤德法俄混合说。同时可通过控制参数识别语种,避免中间过程其他语种乱入的情况。 |
离线转写新增泰语 | 自动语种识别新增泰语,即能自动识别中/英/日/韩/粤/泰语的音视频并进行对应语种转写(一个文件仅支持一个语种);同时单独语种也支持识别泰语。 |
离线转写效率优化 | 降低离线转写的耗时。 |
2024年8月31日
功能名称 | 功能说明 |
实时8K效率优化 | 缩短了实时8K ASR的转写延迟。 |
服务质检可返回发言人 | “服务质检”返回句子ID可兼容带入发言人ID的情况。 |
ITN返回优化 | 百分比等标点的返回优化。 |
实时推流的python SDK | 发布了实时推流的PythonSDK。 |
实时多语言自由说升级 | 新增德法俄语种,即支持实时中英日韩粤德法俄混合说。同时可通过控制参数识别语种,避免中间过程其他语种乱入的情况。 |
实时说话人分离 | 支持实时会议中的说话人分离。 |
发布节省计划 | 支持预付费节省计划,进一步降低使用成本。 |
Appkey维度的出账 | 出账细化到Appkey维度,方便区分各项目的成本情况。 |
2024年6月30日
功能名称 | 功能说明 |
控制台增加用量统计 | 细化了用量统计与查询。 |
实时多语言自由说 | 发布中英日韩粤语自由说。 |
服务质检 | 新增服务质检的大模型能力。 |
2024年5月29日
功能名称 | 功能说明 |
价格大幅下调 | 对标千问,价格大幅下调。 |
2024年5月21日
功能名称 | 功能说明 |
实时记录新增转写语种 | 16K支持识别中英日韩粤自由说。 |
2024年4月24日
功能名称 | 功能说明 |
价格调整 | 语音转文字功能统一下调至0.6元/小时; 大模型每个能力0.22元/小时,多个能力调用时叠加计费; 视频PPT提取下调至0.8元/小时; 翻译价格也同步下调。 |
自定义Prompt | 支持对转写结果自定义Prompt,根据自身业务需求,应用大模型各类能力。 创建大模型任务,支持:听悟-Turbo、听悟-Plus、千问-Max三种模型规格。 |
音视频文件离线转写支持自动语种识别 | 音视频文件离线转写支持自动语种识别,可自动识别中/英/日/韩/粤语的音视频并进行对应语种转写(一个文件仅支持一个语种)。 用户上传文件时,无需再选择语种,简化用户操作与技术对接流程。 |
2024年3月26日
功能名称 | 功能说明 |
AI模型能力升级 | 新增支持大模型提炼思维导图的能力,最多4级深度。支持2万字以内的导图生成(约80分钟音频) |
2024年3月22日
功能名称 | 功能说明 |
文本翻译功能升级 | 支持中、英、日、韩语间的双向互译。 |
2024年3月13日
价格调整,原先所有AI能力统一计费,分解为实际使用的能力才会计费(大模型能力调用多个时,会叠加计费,如:同时调用全文摘要和章节速览的费用为:0.4+0.4=0.8元/小时)。
同时费用进一步下降。
2024年2月22日
大模型能力全面升级;英文和中英混与中文能力对齐;实时多语种和离线兼容性;并提高服务稳定性。
功能名称 | 功能说明 |
大模型版本升级 | 全文摘要、章节速览、发言总结三项大模型功能,返回字数上限从250字,增加到1000个字。减少内容遗漏、描述更加详尽。 |
完善英文大模型能力 | 英文支持问答提取、场景识别、口语书面化。 中英自由说支持全文概要、章节速览、发言总结、待办事项、问答提取 |
实时增加韩语 | 支持韩语语种识别和中韩互译 |
音视频转写升级 | 新增格式: ○ 音频:aiff格式。 ○ 视频:avi、mpeg、3gp、ogg。 修正音视频时长不准确的问题。 |
基础性能 | 提升服务稳定性。 |
2024年1月8日
通义听悟API服务升级,开放通义千问大模型提供的口语书面化功能。
功能名称 | 功能说明 |
口语书面化 | 能够将音视频的语音转写结果进行原文改写和润色,便于形成书面化的语音转写结果。 |
2023年11月8日
通义听悟API服务升级,开放通义千问大模型提供的摘要总结、要点提炼、PPT抽取及摘要功能。同时优化了API调用方式,对接成本更小。
功能名称 | 功能说明 |
章节速览 | 能够将音视频内容按主题进行章节切分。并总结章节标题与摘要。 |
全文摘要 | 对全部内容,进行摘要总结。 |
发言总结 | 在会议中往往有多人的讨论。通义听悟能够区分发言人、帮你总结出每个人不同的观点。发言总结功能可以把谁在会议中表达了什么清晰的整理、呈现出来。 |
问答对提取 | 会议中的一问一答往往包含着非常关键和重要的信息。通义听悟的问题回顾功能,能够将会议进程中的提问定位并抽取出来,将大家讨论过的问题一一罗列。 |
视频PPT抽取及摘要 | 可将视频中呈现的PPT进行识别和提取,同时对每页PPT演讲的内容进行摘要总结。帮助获取视频PPT的资料,并快速理解对应的内容。 |
模型能力升级 | 关键词与待办事项提取,升级为大模型。提炼更加聚焦。 |
2023年6月1日
通义听悟全面开启公测。公测期用户可体验所有AI功能,含全文概要、章节速览、发言总结等高阶AI功能。通过阿里云主账号登录,可享受以下权益:
每日登录通义听悟,自动获得转写时长。同时扩大存储与剩余时长上限。
每邀请1名好友注册并登录通义听悟账号,邀请者可获得额外转写时长。
输入口令即可获得额外的转写时长。
通义听悟绑定阿里云盘账号,共享云盘超大存储空间。
功能名称 | 功能说明 |
实时记录 | 在任何需要记录的场合,可打开"实时记录"功能,记录会议、培训、访谈等场景的对话信息。语音识别会把内容精准的转换为文字。 |
多语言翻译 | 会议中哪怕有来自外国的参会人也不是问题,通义听悟的翻译能力能够将内容进行实时多语言翻译,从而帮助所有人理解掌握会议内容。 |
问答回顾 | 会议中的一问一答往往包含着非常关键和重要的信息。通义听悟的问题回顾功能,能够将会议进程中的提问定位并抽取出来,将大家讨论过的问题一一罗列。 |
发言总结 | 在会议中往往有多人的讨论。通义听悟能够区分发言人、帮你总结出每个人不同的观点。发言总结功能可以把谁在会议中表达了什么清晰的整理、呈现出来。 |
本地上传&云盘导入 | 通过“上传音视频”功能可对已录制好的音频视频文件进行理解分析。 通义听悟已经与阿里云盘打通,存储在阿里云盘中的音频视频内容都可以导入通义听悟进行AI的分析和理解。 |
全文概要 | 通过大语言模型强大的理解能力,提炼出忠实于原文的摘要,全文概要用两三百字的篇幅将最重要的信息呈现在你的面前。 |
章节速览 | 如果你还想进一步深入了解内容细节,通义听悟会将这段音频视频按时间线分割成章节,向你呈现每一个章节的中心思想和主要内容。通义听悟全新的体验让“一目十行”的“阅读”音视频成为现实。 |
2023年3月14日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 文档链接 |
实时记录接口 | 实时接口 |
| 新增 | |
通义听悟界面服务 | 通义听悟网站及微信小程序 |
| 新增 |
2023年2月8日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 文档链接 |
音视频文件记录 | 实时接口 |
| 新增 |
2022年12月12日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 文档链接 |
音视频文件记录 | 实时接口 |
| 新增 |
2022年10月25日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 文档链接 |
实时记录 | 实时接口 |
| 新增 | |
音视频文件记录 | 实时接口 |
| 新增 | |
控制台配置 | 控制台界面 | 开通服务、设置权限策略、创建项目、测试效果 | 新增 |