Paraformer语音识别

更新时间: 2024-12-23 14:11:12

产品简介

基于通义实验室新一代非自回归端到端模型,Paraformer 提供实时音频流的语音识别功能,并支持对各种音视频文件进行语音识别。

产品优势

  • 识别准确率高:基于新一代非自回归端到端模型,大幅提高了语音识别的精度和准确率。

  • 丰富的功能:支持定制热词、时间戳、情感和事件识别、敏感词过滤、语气词过滤、自动说话人分离、说话人数量参考、标点符号预测等功能。

  • 广泛的领域覆盖:适用于智能问答、语音指令、音视频字幕、语音搜索、会议谈话转译、语音质检,公安消防接警、法庭审讯记录等各类场景。

功能特性

Paraformer实时语音识别

Paraformer录音文件识别

接入方式

定制热词

支持,参见定制热词

支持,参见定制热词

情感和事件识别

不支持

不支持

敏感词过滤

不支持

支持,参见录音文件识别API详情,可以通过special_word_filter参数进行过滤

语气词过滤

支持,参见实时语音识别API详情,可以通过disfluency_removal_enabled参数开启

支持,参见录音文件识别API详情,可以通过disfluency_removal_enabled参数开启

自动说话人分离

不支持

支持,参见录音文件识别API详情,可以通过diarization_enabled参数开启

说话人数量参考

不支持

支持,参见录音文件识别API详情,开启说话人分离后可通过speaker_count参数查看

时间戳

支持,参见实时语音识别API详情,可以通过begin_timeend_time参数查看

支持,参见录音文件识别API详情,可以通过begin_timeend_time参数查看

流式输入

支持

不支持

流式输出

支持

不支持

识别本地文件

支持

不支持,仅支持传入公网可访问的待识别文件URL

标点符号预测

支持

支持

待识别音频格式

pcm、wav、opus、speex、aac、amr等

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

待识别音频声道

单声道

不限

待识别音频采样率

因模型而异:

  • paraformer-realtime-v2 支持任意采样率

  • paraformer-realtime-v1 仅支持16kHz采样

  • paraformer-realtime-8k-v1 仅支持8kHz采样率

因模型而异:

  • paraformer-v2 支持任意采样率

  • paraformer-v1 支持任意采样率

  • paraformer-8k-v2 仅支持8kHz采样率

  • paraformer-8k-v1 仅支持8kHz采样率

  • paraformer-mtl-v1 支持16kHz及以上采样率

待识别音频大小

不限,详见输入文件限制

单次识别最多能指定100个文件URL,每个URL对应的录音文件大小应小于等于2GB,详见输入文件限制

语言

中英文、上海话、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、江西话、宁夏话、山西话、陕西话、山东话、四川话、天津话、云南话、粤语

中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话)、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语

单价

0.864元/小时

0.288元/小时

免费额度

10小时/月

10小时/月

应用场景

  • 语音搜索

    支持各种场景下的语音搜索,如地图导航、浏览器搜索等。可以集成到任何形式的手机应用中,最大限度地解放双手。

  • 语音指令

    通过语音命令控制智能设备,实现快捷便利的操作,如控制空调开关、电视换台等。可以集成到智能家居等设备中。

  • 语音短消息

    发送或者接收语音短消息时,利用音频转文字能力,实现音频内容快速预览。

  • 视频实时直播字幕

    现场演讲场景、实时直播场景下,将视频中的音频实时转写为字幕,还可以进一步对内容进行管理。

  • 实时会议记录

    将会议、法庭庭审中的音频实时转写为文字,辅助会议记录工作,同时适用于电视会议等远距离场景。

  • 实时客服记录

    将呼叫中心的语音实时转写为文字,可以实现实时质检等。

  • 呼叫中心语音质检

    上传呼叫中心的录音文件,通过录音文件识别得到文本,进一步通过文本检索,检查有无违规话术、敏感词等信息。

  • 庭审数据库录入

    上传庭审记录的录音文件,进行识别后,将识别文本录入数据库。

  • 会议记录总结

    对会议记录的音频文件进行识别,然后通过人工或者自动方法,对会议记录作出总结。

  • 医院病历录入

    手术时通过音频记录医生的操作,通过录音文件识别得到文本,提高病例录入效率。

  • 更多应用场景

    除上述场景外,Paraformer还适用于各种需要语音识别的场景,为用户提供高效、准确的服务。

产品体验

请点击链接体验语音识别

相关文档

您可以通过阅读以下文档了解更多:

上一篇: 计量计费 下一篇: 快速开始
阿里云首页 大模型服务平台百炼 相关技术圈