产品概述

通义听悟智能纪要 Agent 基于语音识别和大语言模型,对会议、访谈、课堂等场景下的实时或离线录音进行智能总结分析。

01

产品优势

高精度语音识别

  • 能够将实时音频流或音视频文件中的语音转写成文字,支持中文、英文、粤语、日语、韩语、德语、法语、俄语的转写及实时双向互译。

  • 转写结果可返回段落、句子划分和词级别的起止时间,用于对应字幕展示。

大模型全面加持

  • 支持章节速览、大模型摘要总结(全文摘要、发言总结、要点回顾、思维导图)、要点提炼(关键词、待办事项、场景识别)、PPT提取及摘要、口语书面化、自定义prompt等功能。

应用场景

面向企业智慧办公、教育培训、金融、媒体等业务场景。

计费规则

音视频(按时长计费)

模型

功能

是否可选

标准价格

ASR

  • 实时会议转写(送说话人分离)

  • 音视频文件转写(送说话人分离、自动语种识别)

二选一即可

0.6元/小时

大模型

  • 章节速览

  • 全文摘要

  • 发言总结

  • 要点回顾

  • 思维导图

  • 待办事项

  • 关键词

  • 口语书面化

  • 自定义 Prompt

分别可选,各项能力按照处理的音视频时长,独立计费。

使用多个能力和多个Prompt时,叠加计费(如使用关键词和章节速览,计费为0.064+0.064=0.128元/小时)。

0.064元/小时

多模态

  • 多模态(视频 PPT 提取+ PPT摘要)

可选

0.64元/小时

翻译

  • 实时翻译

  • 离线翻译

可选

4元/小时

0.5元/小时

纯文本处理

0.95元/千次

说明

根据输入文本量统计,输入内容每150tokens计为1次,不满150个也计为1次。(如:输入文字=400tokens,则计为3次。)