产品优势

本文为您介绍通义听悟API产品核心优势。

  • 语音、语言、视觉多模态,17个AI功能灵活搭配

支持音视频信息处理与提取所需的多种AI能力。除语音识别、翻译、说话人分离外,还包括章节速览、大模型摘要总结(全文摘要、发言总结、问答回顾、思维导图)、要点提炼(关键词、待办事项、重点内容、场景识别)、服务质检、PPT提取及摘要、口语书面化、自定义prompt等功能。

模块划分

能力说明

语音转写

语音转文字:能够将实时音频流或音视频文件中的语音转写成文字,支持中文、英文、粤语、中英混、日语、韩语的转写。转写结果可返回段落、句子划分和词级别的起止时间,用于对应字幕展示。

说话人分离:能够将对话中的人进行区分,需设置2人还是多人。可设置是否开启。

自定义Prompt

自定义prompt是指由客户自主定义大模型提示词,引导大模型完成客户定义的各类任务。若通义听悟提供的标准AI模型能力无法满足您的业务需求,则可以通过本功能更加灵活地使用大模型。

章节速览

聚合以下三种AI能力,对音视频内容的章节进行划分与总结:

章节分割:将音视频内容,根据不同交流话题进行章节分割。

章节标题:一句话总结章节标题(32个topic以内)。

章节摘要:1000个字以内,概括章节内容。

摘要总结(全文摘要、发言总结、问答回顾、思维导图)

全文摘要:对完整的音视频内容进行总结。

发言总结:对不同发言人的说话内容进行总结,需先在“语音转写”中开启“说话人分离”功能。

问答回顾:在理解对话内容的基础上,摘出显性提问、总结隐性问题,并根据对话内容提炼回答内容。

思维导图:根据音视频内容进行总结,并生成绘制思维导图所需的数据结构,您需要将结果传递给前端框架,渲染出思维导图图片。目前思维导图最多生成四个层级(树结构最大深度为四层)。

要点提炼(待办事项、关键词、重点内容)

关键词:提取对话中的关键词。

待办事项:提取对话中的待办事项。

重点内容:提取对话中的关键句。

场景识别:根据内容类型,分析场景,可识别:面试、演讲或会议。

PPT抽取及摘要

视频PPT抽取:抽取视频文件中出现的PPT。

PPT讲解总结:对每页PPT对应的讲解内容,进行摘要总结。讲解与PPT相互对应。可返回每页对应的起止时间点、摘要文字。

文本翻译

实时语音翻译:实时记录支持中、英、日、韩语间的实时双向互译;中英自由说翻译成中、英或中&英。

离线文件翻译:音视频文件语音转文字,支持中、英、日、韩语间的双向互译;中英自由说翻译成中、英或中&英。

口语书面化

口语书面化:对语音转写结果进行原文改写和润色,形成书面化的语音转写结果。

  • 对接速度快,省时省力:

一套接口的参数化配置,即可开启不同场景中所需的AI能力,降低构建AI场景化服务的API对接成本,省时省力。

  • 稳定服务:

支持自定义主动消息推送通知与状态查询,提供多种异常情况处理机制,方便业务方进行上层业务逻辑处理。