功能特性

本文为您介绍通义听悟API服务中,各项功能及其对应场景、使用限制与和调用方式。

音视频文件服务参数表

服务

模式

文件类型

音频

采样率

文件格式

大小限制

声道/路

语种

支持热词语种

离线说话人区分

识别结果返回方式

调用SDK

源文件传输方案

实时记录

实时

音频流

8k

PCM、OPUS、WAV

24小时

三路

中文

不分离

按状态区分:句中按词返回;句结束整体更新

Java、Python、GO

webscoket建联,实时推流

音频流

16k

PCM、OPUS、WAV

24小时

三路

中、英、粤、日、韩、中英日韩粤德法俄自由说

中文

不分离、

2人、多人

按状态区分:句中按词返回;句结束整体更新

Java、Python、GO

webscoket建联,实时推流

音视频文件转写

离线

音频文件

8k

MP3、WAV、m4a、wma、AAC、ogg、amr、flac、aiff

6G&

6小时

双声道

中、英

中文

不分离、2人

整体返回转写结果及时间戳

Java、Python、GO

OSS地址

音频文件

16k/24k/48k

MP3、WAV、m4a、wma、AAC、ogg、amr、flac、aiff

6G&

6小时

首声道

中、英、粤、日、韩、中英日韩粤德法俄自由说

中文

不分离、

2人、多人

整体返回转写结果及时间戳

Java、Python、GO

OSS地址

视频文件

16k/24k/48k

mp4、wmv、M4V、flv、rmvb、dat、mov、mkv、webm、avi、mpeg、3gp、ogg

6G&

6小时

首声道

中、英、粤、日、韩、中英日韩粤德法俄自由说

中文

不分离、

2人、多人

整体返回转写结果及时间戳

Java、Python、GO

OSS地址

大模型相关能力(前置功能:语音转写)

功能

最小字数

限制

对应最小

音频时长

最佳效果的音频时长

返回内容

限制

支持语种

全文摘要

全文250字

以上

完整音频约70秒以上

4小时以内

1000字以内

中、英、

中英自由说

章节速览

章节250字

以上

完整音频约70秒以上

4小时以内

每段摘要

1000字以内

中、英、

中英自由说

发言总结

发言内容

250字以上

完整音频约70秒以上

4小时以内

每位发言人1000字以内

中、英、

中英自由说

问答回顾

全文300字

以上

完整音频约90秒以上

4小时以内

1小时音频约30-50问答对

单个问答对平均长度90字

中、英、

中英自由说

待办事项

无限制

无限制

90秒以上

4小时以内

最多6个待办

5-30字之间

中、英

关键词

全文200字

以上

完整音频约60秒以上

70分钟以内

20个词以内

中、英、粤、

中英自由说

口语书面化

无限制

无限制

4小时以内

中、英、

中英自由说

思维导图

无限制

无限制

90分钟以内

4级深度

自定义Prompt

无限制

无限制

4小时以内

1000字以内

中、英

PPT提取及摘要(前置功能:音视频文件转写;文件类型:视频)

功能

可抽取图形

功能说明

摘要支持语种

视频PPT提取

全PPT或讲课模式

上传完成后,每小时视频约2~5分钟;最多提取200张PPT

不限

PPT讲解总结

全PPT或讲课模式

转写完成后,约1分钟

中、英

注:仅支持PPT在主要界面(投屏或周边有人物视频),不支持人物在PPT前走动或演讲。

可通过通义听悟网站测试效果。点此测试

通义听悟翻译(前置功能:语音转写)

服务

文件类型

音频采样率

翻译

支持翻译

实时语音翻译

音频流

8k

实时

中、英、日、韩、德、法、俄语间的双向互译;

中英自由说翻译成中、英或中&英

音频流

16K

实时

音视频文件翻译

音频文件

8k

离线

音频文件

16k/24k/48k

离线

视频文件

16k/24k/48k

离线