语音识别-Paraformer
产品简介
基于通义实验室新一代非自回归端到端模型,Paraformer 提供实时音频流的语音识别功能,并支持对各种音视频文件进行语音识别。
产品优势
识别准确率高:基于新一代非自回归端到端模型,大幅提高了语音识别的精度和准确率。
丰富的功能:支持定制热词、时间戳、情感和事件识别、敏感词过滤、语气词过滤、自动说话人分离、说话人数量参考、标点符号预测等功能。
广泛的领域覆盖:适用于智能问答、语音指令、音视频字幕、语音搜索、会议谈话转译、语音质检,公安消防接警、法庭审讯记录等各类场景。
功能特性
Paraformer实时语音识别 | Paraformer录音文件识别 | |
接入方式 | Python、Java、WebSocket | Python、Java、RESTful |
定制热词 | 支持 | 支持 |
情感识别 | 仅paraformer-realtime-8k-v2模型支持 | 不支持 |
敏感词过滤 | 不支持 | 支持 |
语气词过滤 | 支持 | 支持 |
自动说话人分离 | 不支持 | 支持 |
说话人数量参考 | 不支持 | 支持 |
时间戳 | 支持 | 支持 |
流式输入 | 支持 | 不支持 |
流式输出 | 支持 | 不支持 |
识别本地文件 | 支持 | 不支持,仅支持传入公网可访问的待识别文件URL |
标点符号预测 | 支持 | 支持 |
待识别音频格式 | pcm、pcm编码的wav、mp3、ogg封装的opus、ogg封装的speex、aac、amr | aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv |
待识别音频采样位数 | 16bit | 不限 |
待识别音频声道 | 单声道 | 不限 |
待识别音频采样率 | 因模型而异:
| 因模型而异:
|
待识别音频大小 | 不限 | 单次识别最多能指定100个文件URL,每个URL对应的录音文件大小应小于等于2GB |
语言 | 因模型而异:
| 因模型而异:
|
应用场景
一、语音控制与交互
语音搜索
在地图导航、浏览器搜索等场景下,对语音进行识别,完成搜索功能,解放用户双手,提升操作便捷性。
语音指令
通过语音命令控制智能家居设备,实现空调开关、电视换台等操作,打造智能化生活体验。
语音短消息
利用音频转文字技术,快速预览语音短消息内容,提升信息处理效率。
二、实时语音识别
视频实时直播字幕
在现场演讲、实时直播等场景中,将音频实时转写为字幕,便于观众理解和内容管理。
实时会议记录
将会议、法庭庭审等场景中的音频实时转写为文字,辅助会议记录工作,适用于远程视频会议等场景。
实时客服记录
通过语音识别技术,将呼叫中心的语音对话实时转写为文字,支持实时质检和后续分析。
医院病历录入
在手术场景中,通过语音识别记录医生的操作指令,生成文本病历,提高录入效率。
三、语音文件处理
呼叫中心语音质检
上传呼叫中心录音文件,通过语音识别生成文本,进行违规话术、敏感词检测,确保服务质量。
庭审数据库录入
上传庭审录音文件,识别生成文本后录入数据库,便于后续查询和管理。
除上述应用场景外,Paraformer还支持更多需要语音识别的场景,为用户提供高效、准确的服务。
产品体验
请点击链接体验语音识别。
API详情
实时语音识别
Paraformer的实时语音识别API能够持续识别长时间的语音数据流,并流式返回结果,适用于会议演讲、视频直播等场景。API提供丰富的输出选项,包括中间文字结果、句子级文字、词和时间戳等。
不同编程语言的SDK/API在参数命名规则、接口调用方式上存在差异,请根据实际编程语言参阅对应文档:
Java:Java API
Python:Python API
其他编程语言(如Go、C#、PHP、Node.js等):WebSocket API
录音文件识别
Paraformer语音识别提供的录音文件识别API,能够对常见的音视频文件进行语音识别,并将结果返回给调用者。API提供丰富的输出选项,包括全文级文字、句子级文字、词和时间戳等。
不同编程语言的SDK/API在参数命名规则、接口调用方式上存在差异,请根据实际编程语言参阅对应文档:
Java:Java API
Python:Python API
其他编程语言(如Go、C#、PHP、Node.js等):RESTful API
计量计费
实时语音识别
单价:0.864元/小时
免费额度:10小时/月(累计时长)
录音文件识别
单价:0.288元/小时
免费额度:10小时/月(累计时长)