功能特性

本文为您介绍通义听悟API服务中,各项功能及其对应场景、使用限制与和调用方式。

音视频文件服务参数表

服务

实时记录

音视频文件转写

模式

实时

离线

文件类型

音频流

音频流

音频文件

音频文件

视频文件

音频采样率

8k

16k

8k

16k/24k/48k

16k/24k/48k

文件格式

PCM、OPUS、WAV

PCM、OPUS、WAV

MP3、WAV、M4A、WMA、AAC、OGG、AMR、FLAC、AIFF

MP3、WAV、M4A、WMA、AAC、OGG、AMR、FLAC、AIFF

MP4、WMV、M4V、FLVRMVB、DAT、MOV、MKVWEBM、AVI、MPEG、3GPOGG

大小限制

24小时

24小时

6G&6小时

6G&6小时

6G&6小时

声道/路

三路

三路

双声道

首声道

首声道

语种

中、英、粤、日、韩、中英日韩粤德法俄自由说

中、英

中、英、粤、日、韩、中英日韩粤德法俄自由说

中、英、粤、日、韩、中英日韩粤德法俄自由说

支持热词语种

中文

中文

中文

中文

中文

离线说话人区分

不分离

不分离、2人、多人

不分离、2

不分离、2人、多人

不分离、2人、多人

识别结果返回方式

按状态区分:句中按词返回;句结束整体更新

按状态区分:句中按词返回;句结束整体更新

整体返回转写结果及时间戳

整体返回转写结果及时间戳

整体返回转写结果及时间戳

调用SDK

Java、Python、GO

Java、Python、GO

Java、Python、GO

Java、Python、GO

Java、Python、GO

源文件传输方案

WebSocket建联,实时推流

WebSocket建联,实时推流

OSS地址

OSS地址

OSS地址

大模型相关能力(前置功能:语音转写)

功能

最小字数

限制

对应最小

音频时长

最佳效果的音频时长

返回内容

限制

支持语种

全文摘要

全文250

以上

完整音频约70秒以上

4小时以内

1000字以内

中、英、

中英自由说

章节速览

章节250

以上

完整音频约70秒以上

4小时以内

每段摘要

1000字以内

中、英、

中英自由说

发言总结

发言内容

250字以上

完整音频约70秒以上

4小时以内

每位发言人1000字以内

中、英、

中英自由说

问答回顾

全文300

以上

完整音频约90秒以上

4小时以内

1小时音频约30-50问答对

单个问答对平均长度90

中、英、

中英自由说

待办事项

无限制

无限制

90秒以上

4小时以内

最多6个待办

5-30字之间

中、英

关键词

全文200

以上

完整音频约60秒以上

70分钟以内

20个词以内

中、英、粤、

中英自由说

口语书面化

无限制

无限制

4小时以内

中、英、

中英自由说

思维导图

无限制

无限制

90分钟以内

4级深度

自定义Prompt

无限制

无限制

4小时以内

1000字以内

中、英

服务质检

无限制

无限制

4小时以内

根据质检需求

内容提取

无限制

无限制

4小时以内

根据提取需求

PPT提取及摘要(前置功能:音视频文件转写;文件类型:视频)

功能

可抽取图形

功能说明

摘要支持语种

视频PPT提取

PPT或讲课模式

上传完成后,每小时视频约2~5分钟;最多提取200PPT

不限

PPT讲解总结

PPT或讲课模式

转写完成后,约1分钟

中、英

注:仅支持PPT在主要界面(投屏或周边有人物视频),不支持人物在PPT前走动或演讲。

可通过通义听悟网站测试效果。点此测试

通义听悟翻译(前置功能:语音转写)

服务

文件类型

音频采样率

翻译

支持翻译

实时语音翻译

音频流

8k

实时

中、英、日、韩、德、法、俄语间的双向互译;

中英自由说翻译成中、英或中&英

音频流

16K

实时

音视频文件翻译

音频文件

8k

离线

音频文件

16k/24k/48k

离线

视频文件

16k/24k/48k

离线