本文为您介绍通义听悟API服务中,各项功能及其对应场景、使用限制与和调用方式。
音视频文件服务参数表
服务 | 模式 | 文件类型 | 音频 采样率 | 文件格式 | 大小限制 | 声道/路 | 语种 | 支持热词语种 | 离线说话人区分 | 识别结果返回方式 | 调用SDK | 源文件传输方案 |
实时记录 | 实时 | 音频流 | 8k | PCM、OPUS、WAV | 24小时 | 三路 | 中 | 中文 | 不分离 | 按状态区分:句中按词返回;句结束整体更新 | Java、Python、GO | webscoket建联,实时推流 |
音频流 | 16k | PCM、OPUS、WAV | 24小时 | 三路 | 中、英、粤、日、韩、中英日韩粤德法俄自由说 | 中文 | 不分离、 2人、多人 | 按状态区分:句中按词返回;句结束整体更新 | Java、Python、GO | webscoket建联,实时推流 | ||
音视频文件转写 | 离线 | 音频文件 | 8k | MP3、WAV、m4a、wma、AAC、ogg、amr、flac、aiff | 6G& 6小时 | 双声道 | 中、英 | 中文 | 不分离、2人 | 整体返回转写结果及时间戳 | Java、Python、GO | OSS地址 |
音频文件 | 16k/24k/48k | MP3、WAV、m4a、wma、AAC、ogg、amr、flac、aiff | 6G& 6小时 | 首声道 | 中、英、粤、日、韩、中英日韩粤德法俄自由说 | 中文 | 不分离、 2人、多人 | 整体返回转写结果及时间戳 | Java、Python、GO | OSS地址 | ||
视频文件 | 16k/24k/48k | mp4、wmv、M4V、flv、rmvb、dat、mov、mkv、webm、avi、mpeg、3gp、ogg | 6G& 6小时 | 首声道 | 中、英、粤、日、韩、中英日韩粤德法俄自由说 | 中文 | 不分离、 2人、多人 | 整体返回转写结果及时间戳 | Java、Python、GO | OSS地址 |
大模型相关能力(前置功能:语音转写)
功能 | 最小字数 限制 | 对应最小 音频时长 | 最佳效果的音频时长 | 返回内容 限制 | 支持语种 |
全文摘要 | 全文250字 以上 | 完整音频约70秒以上 | 4小时以内 | 1000字以内 | 中、英、 中英自由说 |
章节速览 | 章节250字 以上 | 完整音频约70秒以上 | 4小时以内 | 每段摘要 1000字以内 | 中、英、 中英自由说 |
发言总结 | 发言内容 250字以上 | 完整音频约70秒以上 | 4小时以内 | 每位发言人1000字以内 | 中、英、 中英自由说 |
问答回顾 | 全文300字 以上 | 完整音频约90秒以上 | 4小时以内 | 1小时音频约30-50问答对 单个问答对平均长度90字 | 中、英、 中英自由说 |
待办事项 | 无限制 | 无限制 | 90秒以上 4小时以内 | 最多6个待办 5-30字之间 | 中、英 |
关键词 | 全文200字 以上 | 完整音频约60秒以上 | 70分钟以内 | 20个词以内 | 中、英、粤、 中英自由说 |
口语书面化 | 无限制 | 无限制 | 4小时以内 | 无 | 中、英、 中英自由说 |
思维导图 | 无限制 | 无限制 | 90分钟以内 | 4级深度 | 中 |
自定义Prompt | 无限制 | 无限制 | 4小时以内 | 1000字以内 | 中、英 |
PPT提取及摘要(前置功能:音视频文件转写;文件类型:视频)
功能 | 可抽取图形 | 功能说明 | 摘要支持语种 |
视频PPT提取 | 全PPT或讲课模式 | 上传完成后,每小时视频约2~5分钟;最多提取200张PPT | 不限 |
PPT讲解总结 | 全PPT或讲课模式 | 转写完成后,约1分钟 | 中、英 |
注:仅支持PPT在主要界面(投屏或周边有人物视频),不支持人物在PPT前走动或演讲。
可通过通义听悟网站测试效果。点此测试
通义听悟翻译(前置功能:语音转写)
服务 | 文件类型 | 音频采样率 | 翻译 | 支持翻译 |
实时语音翻译 | 音频流 | 8k | 实时 | 中、英、日、韩、德、法、俄语间的双向互译; 中英自由说翻译成中、英或中&英 |
音频流 | 16K | 实时 | ||
音视频文件翻译 | 音频文件 | 8k | 离线 | |
音频文件 | 16k/24k/48k | 离线 | ||
视频文件 | 16k/24k/48k | 离线 |