全面解析产品核心优势功能-工作学习 AI 助手通义听悟-阿里云

本文为您介绍通义听悟API产品核心优势。

语音、语言、视觉多模态，17个AI功能灵活搭配

支持音视频信息处理与提取所需的多种AI能力。除语音识别、翻译、说话人分离外，还包括章节速览、大模型摘要总结（全文摘要、发言总结、问答回顾、思维导图）、要点提炼（关键词、待办事项、重点内容、场景识别）、服务质检、PPT提取及摘要、口语书面化、自定义prompt等功能。

模块划分	能力说明
语音转写	语音转文字：能够将实时音频流或音视频文件中的语音转写成文字，支持中文、英文、粤语、中英混、日语、韩语的转写。转写结果可返回段落、句子划分和词级别的起止时间，用于对应字幕展示。说话人分离：能够将对话中的人进行区分，需设置2人还是多人。可设置是否开启。
自定义Prompt	自定义prompt是指由客户自主定义大模型提示词，引导大模型完成客户定义的各类任务。若通义听悟提供的标准AI模型能力无法满足您的业务需求，则可以通过本功能更加灵活地使用大模型。
章节速览	聚合以下三种AI能力，对音视频内容的章节进行划分与总结：章节分割：将音视频内容，根据不同交流话题进行章节分割。章节标题：一句话总结章节标题（32个topic以内）。章节摘要：1000个字以内，概括章节内容。
摘要总结（全文摘要、发言总结、问答回顾、思维导图）	全文摘要：对完整的音视频内容进行总结。发言总结：对不同发言人的说话内容进行总结，需先在“语音转写”中开启“说话人分离”功能。问答回顾：在理解对话内容的基础上，摘出显性提问、总结隐性问题，并根据对话内容提炼回答内容。思维导图：根据音视频内容进行总结，并生成绘制思维导图所需的数据结构，您需要将结果传递给前端框架，渲染出思维导图图片。目前思维导图最多生成四个层级（树结构最大深度为四层）。
要点提炼（待办事项、关键词、重点内容）	关键词：提取对话中的关键词。待办事项：提取对话中的待办事项。重点内容：提取对话中的关键句。场景识别：根据内容类型，分析场景，可识别：面试、演讲或会议。
PPT抽取及摘要	视频PPT抽取：抽取视频文件中出现的PPT。 PPT讲解总结：对每页PPT对应的讲解内容，进行摘要总结。讲解与PPT相互对应。可返回每页对应的起止时间点、摘要文字。
文本翻译	实时语音翻译：实时记录支持中、英、日、韩语间的实时双向互译；中英自由说翻译成中、英或中&英。离线文件翻译：音视频文件语音转文字，支持中、英、日、韩语间的双向互译；中英自由说翻译成中、英或中&英。
口语书面化	口语书面化：对语音转写结果进行原文改写和润色，形成书面化的语音转写结果。

对接速度快，省时省力：

一套接口的参数化配置，即可开启不同场景中所需的AI能力，降低构建AI场景化服务的API对接成本，省时省力。

稳定服务：

支持自定义主动消息推送通知与状态查询，提供多种异常情况处理机制，方便业务方进行上层业务逻辑处理。