文档

产品优势

更新时间:
一键部署

本文为您介绍通义听悟API产品核心优势。

  • 语音、语言、视觉多模态,17个AI功能灵活搭配

支持音视频信息处理与提取,所需的多种AI能力。除语音识别外,还包括如大模型摘要,说话人分离,智能纪要(关键词抽取、章节抽取、值得关注、智能待办事项),翻译等功能。

模块划分

能力说明

语音转写

语音转文字:能够将实时音频流或音视频文件中的语音转写成文字,支持中文、英文、粤语、中英混、日语、韩语的转写。转写结果可返回段落、句子划分和词级别的起止时间,用于对应字幕展示。

说话人分离:能够将对话中的人进行区分,需设置2人还是多人。可设置是否开启。

自定义Prompt

自定义prompt是指由客户自主定义大模型提示词,引导大模型完成客户定义的各类任务。若通义听悟提供的标准AI模型能力无法满足您的业务需求,则可以通过本功能更加灵活地使用大模型。

章节速览

聚合以下三种AI能力,对音视频内容的章节进行划分与总结:

章节分割:将音视频内容,根据不同交流话题进行章节分割。

章节标题:一句话总结章节标题(32个topic以内)。

章节摘要:1000个字以内,概括章节内容。

大模型摘要

全文摘要:对完整的音视频内容进行总结。

发言总结:对不同发言人的说话内容进行总结,需先在“语音转写”中开启“说话人分离”功能。

问答摘要:在理解对话内容的基础上,摘出显性提问、总结隐性问题,并根据对话内容提炼回答内容。

智能纪要

提取关键词:提取对话中的关键词。

提取待办事项:提取对话中的待办事项。

提取重点内容:提取关键句。

识别内容场景:根据内容类型,分析场景,可识别:面试、演讲或会议。

PPT抽取和总结

视频PPT抽取:抽取视频文件中出现的PPT。

PPT讲解总结:对每页PPT讲解语音,进行摘要总结。讲解与PPT相互对应。可返回每页对应的起止时间点、摘要文字。

文本翻译

实时语音翻译:实时记录支持中、英、日、韩语间的实时双向互译;中英自由说翻译成中、英或中&英。

离线文件翻译:音视频文件语音转文字,支持中、英、日、韩语间的双向互译;中英自由说翻译成中、英或中&英。

口语书面化

口语书面化:对语音转写结果进行原文改写和润色,形成书面化的语音转写结果。

  • 对接速度快,省时省力:

一套接口的参数化配置,即可开启不同场景中所需的AI能力,降低构建AI场景化服务的API对接成本,省时省力。

  • 稳定服务:

支持自定义主动消息推送通知与状态查询,提供多种异常情况处理机制,方便业务方进行上层业务逻辑处理。

  • 本页导读 (0)