文档

功能特性

更新时间:
一键部署

本文为您介绍通义听悟API服务中,各项功能及其对应场景、使用限制与和调用方式。

音视频文件服务参数表

服务

模式

文件类型

音频

采样率

文件格式

大小限制

声道/路

语种

支持热词语种

离线说话人区分

转写延迟

识别结果返回方式

调用SDK

源文件传输方案

实时记录

实时

音频流

8k

PCM、OPUS、WAV

24小时

三路

中文

不分离

尾字300ms

按状态区分:句中按词返回;句结束整体更新

Java、Python、GO

webscoket建联,实时推流

音频流

16k

PCM、OPUS、WAV

24小时

三路

中、英、粤、日、韩、中英自由说

中文

不分离、

2人、多人

尾字300ms

按状态区分:句中按词返回;句结束整体更新

Java、Python、GO

webscoket建联,实时推流

音视频文件转写

离线

音频文件

8k

MP3、WAV、m4a、wma、ACC、ogg、amr、flac、aiff

6G&

6小时

双声道

中、英

中文

不分离、2人

每小时音频

约2.5分钟

整体返回转写结果及时间戳

Java、Python、GO

OSS地址

音频文件

16k/24k/48k

MP3、WAV、m4a、wma、ACC、ogg、amr、flac、aiff

6G&

6小时

首声道

中、英、粤、日、韩、中英自由说、自动语种识别

中文

不分离、

2人、多人

每小时音频

约2.5分钟

整体返回转写结果及时间戳

Java、Python、GO

OSS地址

视频文件

16k/24k/48k

mp4、wmv、M4V、flv、rmvb、dat、mov、mkv、webm、avi、mpeg、3gp、ogg

6G&

6小时

首声道

中、英、粤、日、韩、中英自由说、自动语种识别

中文

不分离、

2人、多人

每小时

约3-4分钟

整体返回转写结果及时间戳

Java、Python、GO

OSS地址

大模型相关能力(前置功能:语音转写)

功能

最小字数

限制

对应最小

音频时长

最佳效果的音频时长

返回内容

限制

返回时长

(转写完成后)

支持语种

全文摘要

全文250字

以上

完整音频约70秒以上

4小时以内

1000字以内

若只调用全文摘要,转写完成后约1分钟返回结果;若有章节速览,则章节速览完成后,约10s返回。

中、英、

中英自由说

章节速览

章节250字

以上

完整音频约70秒以上

4小时以内

每段摘要

1000字以内

每小时音频约2分钟

中、英、

中英自由说

发言总结

发言内容

250字以上

完整音频约70秒以上

4小时以内

每位发言人1000字以内

每小时音频约2.5分钟的说话人分离后,还需要30s

中、英、

中英自由说

问答摘要

全文300字

以上

完整音频约90秒以上

4小时以内

1小时音频约30-50问答对

单个问答对平均长度90字

实时结束或文件转写完成后,约1分钟

中、英、

中英自由说

待办摘要

无限制

无限制

90秒以上

4小时以内

最多6个待办

5-30字之间

实时结束或文件转写完成后,约1分钟

中、英

关键词提取

全文200字

以上

完整音频约60秒以上

70分钟以内

20个词以内

实时结束或文件转写完成后,约1分钟

中、英、粤、

中英自由说

口语书面化

无限制

无限制

4小时以内

实时结束或文件转写完成后,约2分钟

中、英、

中英自由说

思维导图

无限制

无限制

90分钟以内

4级深度

实时结束或文件转写完成后,约1分钟

自定义Prompt

无限制

无限制

4小时以内

1000字以内

实时结束或文件转写完成后,约2分钟

中、英

视频PPT提取(前置功能:音视频文件转写;文件类型:视频)

功能

可抽取图形

处理延迟

摘要支持语种

视频PPT提取

全PPT或讲课模式

上传完成后,每小时视频约2~5分钟

不限

每页PPT讲解摘要

全PPT或讲课模式

转写完成后,约1分钟

中文

注:仅支持PPT在主要界面(投屏或周边有人物视频),不支持人物在PPT前走动或演讲。

可通过通义听悟网站测试效果。点此测试

通义听悟翻译(前置功能:语音转写)

服务

文件类型

音频采样率

翻译

支持翻译

实时语音翻译

音频流

8k

实时

中翻英

音频流

16k

实时

中、英、日、韩语间的双向互译;

中英自由说翻译成中、英或中&英

音视频文件翻译

音频文件

8k

离线

中英互译;中翻日

音频文件

16k/24k/48k

离线

中、英、日、韩语间的双向互译;

中英自由说翻译成中、英或中&英

音频文件

16k/24k/48k

离线

中、英、日、韩语间的双向互译;

中英自由说翻译成中、英或中&英

  • 本页导读 (0)