Paraformer语音识别
产品简介
基于通义实验室新一代非自回归端到端模型,Paraformer 提供实时音频流的语音识别功能,并支持对各种音视频文件进行语音识别。
产品优势
识别准确率高:基于新一代非自回归端到端模型,大幅提高了语音识别的精度和准确率。
丰富的功能:支持定制热词、时间戳、情感和事件识别、敏感词过滤、语气词过滤、自动说话人分离、说话人数量参考、标点符号预测等功能。
广泛的领域覆盖:适用于智能问答、语音指令、音视频字幕、语音搜索、会议谈话转译、语音质检,公安消防接警、法庭审讯记录等各类场景。
功能特性
Paraformer实时语音识别 | Paraformer录音文件识别 | |
接入方式 |
|
|
定制热词 | 支持,参见定制热词 | 支持,参见定制热词 |
情感和事件识别 | 不支持 | 不支持 |
敏感词过滤 | 不支持 | 支持,参见录音文件识别API详情,可以通过 |
语气词过滤 | 支持,参见实时语音识别API详情,可以通过 | 支持,参见录音文件识别API详情,可以通过 |
自动说话人分离 | 不支持 | 支持,参见录音文件识别API详情,可以通过 |
说话人数量参考 | 不支持 | 支持,参见录音文件识别API详情,开启说话人分离后可通过 |
时间戳 | 支持,参见实时语音识别API详情,可以通过 | 支持,参见录音文件识别API详情,可以通过 |
流式输入 | 支持 | 不支持 |
流式输出 | 支持 | 不支持 |
识别本地文件 | 支持 | 不支持,仅支持传入公网可访问的待识别文件URL |
标点符号预测 | 支持 | 支持 |
待识别音频格式 | pcm、wav、opus、speex、aac、amr等 | aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv |
待识别音频声道 | 单声道 | 不限 |
待识别音频采样率 | 因模型而异:
| 因模型而异:
|
待识别音频大小 | 不限,详见输入文件限制 | 单次识别最多能指定100个文件URL,每个URL对应的录音文件大小应小于等于2GB,详见输入文件限制 |
语言 | 中英文、上海话、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、江西话、宁夏话、山西话、陕西话、山东话、四川话、天津话、云南话、粤语 | 中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话)、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语 |
单价 | 0.864元/小时 | 0.288元/小时 |
免费额度 | 10小时/月 | 10小时/月 |
应用场景
语音搜索
支持各种场景下的语音搜索,如地图导航、浏览器搜索等。可以集成到任何形式的手机应用中,最大限度地解放双手。
语音指令
通过语音命令控制智能设备,实现快捷便利的操作,如控制空调开关、电视换台等。可以集成到智能家居等设备中。
语音短消息
发送或者接收语音短消息时,利用音频转文字能力,实现音频内容快速预览。
视频实时直播字幕
现场演讲场景、实时直播场景下,将视频中的音频实时转写为字幕,还可以进一步对内容进行管理。
实时会议记录
将会议、法庭庭审中的音频实时转写为文字,辅助会议记录工作,同时适用于电视会议等远距离场景。
实时客服记录
将呼叫中心的语音实时转写为文字,可以实现实时质检等。
呼叫中心语音质检
上传呼叫中心的录音文件,通过录音文件识别得到文本,进一步通过文本检索,检查有无违规话术、敏感词等信息。
庭审数据库录入
上传庭审记录的录音文件,进行识别后,将识别文本录入数据库。
会议记录总结
对会议记录的音频文件进行识别,然后通过人工或者自动方法,对会议记录作出总结。
医院病历录入
手术时通过音频记录医生的操作,通过录音文件识别得到文本,提高病例录入效率。
更多应用场景
除上述场景外,Paraformer还适用于各种需要语音识别的场景,为用户提供高效、准确的服务。
产品体验
请点击链接体验语音识别。
相关文档
您可以通过阅读以下文档了解更多: