功能特性
本文为您介绍听悟的各项功能及其对应场景、支持的语音格式和调用方式。
功能服务参数表
服务 | 时效性 | 功能 | 适用场景 | 支持的语音格式 | 支持调用方式 | 免费调用量 | 购买 |
实时会议纪要 | 实时+非实时 | 提供面向会议专属定制的语音识别模型和NLP模型。 支持实时处理一个会议三路音频流的能力,并将转写结果回推给客户,实现实时多语言字幕的功能。 会议结束后,离线处理返回说话人分离和智能纪要的功能。并将处理结果,回推客户预设的地址。 | 智能会议、访谈、面试、客户交流 | PCM(无压缩的PCM或WAV文件)、16 bit采样位数、三声道 | Java/C++/Python | 最大2个并发 | |
会议音视频文件转写 | 非实时 | 支持4G视频文件和4小时音频文件的离线转写。并将语音识别结果、说话人分离结果和智能纪要(含:关键词、议程、重点内容和待办事项)结果回推客户预设地址。 | 智能会议、访谈、面试、客户交流 | 支持单轨/双轨的WAV、MP3、M4A、WMA、AAC、OGG、AMR、FLAC、MP4 | Java/C++/Python | 每个自然日最多识别2小时时长的音频文件 |
说明
听悟实时会议纪要最多可同时支持三个声道的识别。支持8000(单声道)/16000 Hz采样率、16 bit采样位数的音频。单个会议时长最多24小时。
听悟会议音视频文件转写16000 Hz采样率只支持单声道(mono)语音数据。8000 Hz采样率支持双声道语音数据。
听悟识别语种
服务类型 | 采样率(Hz) | 中文普通话 | 方言 | 外语 | 中英自由说 |
实时会议纪要 | 16000 / 8000 | 普通话(兼容部分口音) | 粤语 | 英语 | 中英文混讲 |
会议音视频文件转写 | 16000 / 8000 | 普通话(兼容部分口音) | 粤语 | 英语 | 中英文混讲 |
听悟翻译语种
服务类型 | 采样率(Hz) | 中文转写 | 方言 | 英语转写 | 中英自由说 |
实时会议纪要 | 16000 / 8000 | 英文 | 暂不支持 | 中文 | 中文/英文/中文&英文 |