产品功能与详细规格-工作学习 AI 助手通义听悟-阿里云

文档备案控制台

输入文档关键字查找

本文为您介绍通义听悟API服务中，各项功能及其对应场景、使用限制与和调用方式。

音视频文件服务参数表

服务	实时记录		音视频文件转写
模式	实时		离线
文件类型	音频流	音频流	音频文件	音频文件	视频文件
音频采样率	8k	16k	8k	16k/24k/48k	16k/24k/48k
文件格式	PCM、OPUS、WAV	PCM、OPUS、WAV	MP3、WAV、M4A、WMA、AAC、OGG、AMR、FLAC、AIFF	MP3、WAV、M4A、WMA、AAC、OGG、AMR、FLAC、AIFF	MP4、WMV、M4V、FLV、RMVB、DAT、MOV、MKV、WEBM、AVI、MPEG、3GP、OGG
大小限制	24小时	24小时	6G&6小时	6G&6小时	6G&6小时
声道/路	三路	三路	双声道	首声道	首声道
语种	中	中、英、粤、日、韩、中英日韩粤德法俄自由说	中、英	中、英、粤、日、韩、中英日韩粤德法俄自由说	中、英、粤、日、韩、中英日韩粤德法俄自由说
支持热词语种	中文	中文、英文	中文、英文	中文、英文	中文、英文
离线说话人区分	不分离	不分离、2人、多人	不分离、2人	不分离、2人、多人	不分离、2人、多人
识别结果返回方式	按状态区分：句中按词返回；句结束整体更新	按状态区分：句中按词返回；句结束整体更新	整体返回转写结果及时间戳	整体返回转写结果及时间戳	整体返回转写结果及时间戳
调用SDK	Java、Python、GO	Java、Python、GO	Java、Python、GO	Java、Python、GO	Java、Python、GO
源文件传输方案	WebSocket建联，实时推流	WebSocket建联，实时推流	OSS地址	OSS地址	OSS地址

大模型相关能力（前置功能：语音转写）

功能	最小字数限制	对应最小音频时长	最佳效果的音频时长	返回内容限制	支持语种
全文摘要	全文250字以上	完整音频约70秒以上	4小时以内	1000字以内	中、英、中英自由说
章节速览	章节250字以上	完整音频约70秒以上	4小时以内	每段摘要 1000字以内	中、英、中英自由说
发言总结	发言内容 250字以上	完整音频约70秒以上	4小时以内	每位发言人1000字以内	中、英、中英自由说
问答回顾	全文300字以上	完整音频约90秒以上	4小时以内	1小时音频约30-50问答对单个问答对平均长度90字	中、英、中英自由说
待办事项	无限制	无限制	90秒以上 4小时以内	最多6个待办 5-30字之间	中、英
关键词	全文200字以上	完整音频约60秒以上	70分钟以内	20个词以内	中、英、粤、中英自由说
口语书面化	无限制	无限制	4小时以内	无	中、英、中英自由说
思维导图	无限制	无限制	90分钟以内	4级深度	中
自定义Prompt	无限制	无限制	4小时以内	1000字以内	中、英
服务质检	无限制	无限制	4小时以内	根据质检需求	中
内容提取	无限制	无限制	4小时以内	根据提取需求	中

PPT提取及摘要（前置功能：音视频文件转写；文件类型：视频）

功能	可抽取图形	功能说明	摘要支持语种
视频PPT提取	全PPT或讲课模式	上传完成后，每小时视频约2～5分钟；最多提取200张PPT	不限
PPT讲解总结	全PPT或讲课模式	转写完成后，约1分钟	中、英

注：仅支持PPT在主要界面（投屏或周边有人物视频），不支持人物在PPT前走动或演讲。

可通过通义听悟网站测试效果。点此测试

通义听悟翻译（前置功能：语音转写）

服务	文件类型	音频采样率	翻译	支持翻译
实时语音翻译	音频流	8k	实时	中、英、日、韩、德、法、俄语间的双向互译；中英自由说翻译成中、英或中&英
实时语音翻译	音频流	16K	实时
音视频文件翻译	音频文件	8k	离线
	音频文件	16k/24k/48k	离线
	视频文件	16k/24k/48k	离线

上一篇：产品优势下一篇：应用场景

该文章对您有帮助吗？