语音识别-Paraformer

更新时间: 2025-04-22 15:45:55

产品简介

基于通义实验室新一代非自回归端到端模型,Paraformer 提供实时音频流的语音识别功能,并支持对各种音视频文件进行语音识别。

产品优势

  • 识别准确率高:基于新一代非自回归端到端模型,大幅提高了语音识别的精度和准确率。

  • 丰富的功能:支持定制热词、时间戳、情感和事件识别、敏感词过滤、语气词过滤、自动说话人分离、说话人数量参考、标点符号预测等功能。

  • 广泛的领域覆盖:适用于智能问答、语音指令、音视频字幕、语音搜索、会议谈话转译、语音质检,公安消防接警、法庭审讯记录等各类场景。

功能特性

Paraformer实时语音识别

Paraformer录音文件识别

接入方式

Python、Java、WebSocket

Python、Java、RESTful

定制热词

支持

支持

情感识别

仅paraformer-realtime-8k-v2模型支持

不支持

敏感词过滤

不支持

支持

语气词过滤

支持

支持

自动说话人分离

不支持

支持

说话人数量参考

不支持

支持

时间戳

支持

支持

流式输入

支持

不支持

流式输出

支持

不支持

识别本地文件

支持

不支持,仅支持传入公网可访问的待识别文件URL

标点符号预测

支持

支持

待识别音频格式

pcm、pcm编码的wav、mp3、ogg封装的opus、ogg封装的speex、aac、amr

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

待识别音频采样位数

16bit

不限

待识别音频声道

单声道

不限

待识别音频采样率

因模型而异:

  • paraformer-realtime-v2 支持任意采样率

  • paraformer-realtime-v1 仅支持16kHz采样

  • paraformer-realtime-8k-v2 仅支持8kHz采样率

  • paraformer-realtime-8k-v1 仅支持8kHz采样率

因模型而异:

  • paraformer-v2 支持任意采样率

  • paraformer-v1 支持任意采样率

  • paraformer-8k-v2 仅支持8kHz采样率

  • paraformer-8k-v1 仅支持8kHz采样率

  • paraformer-mtl-v1 支持16kHz及以上采样率

待识别音频大小

不限

单次识别最多能指定100个文件URL,每个URL对应的录音文件大小应小于等于2GB

语言

因模型而异:

  • paraformer-realtime-v2:

    • 中文,包含中文普通话和各种方言:上海话、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、江西话、宁夏话、山西话、陕西话、山东话、四川话、天津话、云南话、粤语

    • 英文

    • 日语

    • 韩语

  • paraformer-realtime-v1 仅支持中文

  • paraformer-realtime-8k-v2 仅支持中文

  • paraformer-realtime-8k-v1 仅支持中文

因模型而异:

  • paraformer-v2:

    • 中文,包含中文普通话和各种方言:上海话、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、江西话、宁夏话、山西话、陕西话、山东话、四川话、天津话、云南话、粤语

    • 英文

    • 日语

    • 韩语

    • 德语

    • 法语

    • 俄语

  • paraformer-8k-v2 仅支持中文

  • paraformer-v1 仅支持中英文

  • paraformer-8k-v1 仅支持中文

  • paraformer-mtl-v1:中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话)、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语。

应用场景

一、语音控制与交互

  • 语音搜索

    在地图导航、浏览器搜索等场景下,对语音进行识别,完成搜索功能,解放用户双手,提升操作便捷性。

  • 语音指令

    通过语音命令控制智能家居设备,实现空调开关、电视换台等操作,打造智能化生活体验。

  • 语音短消息

    利用音频转文字技术,快速预览语音短消息内容,提升信息处理效率。

二、实时语音识别

  • 视频实时直播字幕

    在现场演讲、实时直播等场景中,将音频实时转写为字幕,便于观众理解和内容管理。

  • 实时会议记录

    将会议、法庭庭审等场景中的音频实时转写为文字,辅助会议记录工作,适用于远程视频会议等场景。

  • 实时客服记录

    通过语音识别技术,将呼叫中心的语音对话实时转写为文字,支持实时质检和后续分析。

  • 医院病历录入

    在手术场景中,通过语音识别记录医生的操作指令,生成文本病历,提高录入效率。

三、语音文件处理

  • 呼叫中心语音质检

    上传呼叫中心录音文件,通过语音识别生成文本,进行违规话术、敏感词检测,确保服务质量。

  • 庭审数据库录入

    上传庭审录音文件,识别生成文本后录入数据库,便于后续查询和管理。

除上述应用场景外,Paraformer还支持更多需要语音识别的场景,为用户提供高效、准确的服务。

产品体验

请点击链接体验语音识别

API详情

实时语音识别

Paraformer的实时语音识别API能够持续识别长时间的语音数据流,并流式返回结果,适用于会议演讲、视频直播等场景。API提供丰富的输出选项,包括中间文字结果、句子级文字、词和时间戳等。

不同编程语言的SDK/API在参数命名规则、接口调用方式上存在差异,请根据实际编程语言参阅对应文档:

录音文件识别

Paraformer语音识别提供的录音文件识别API,能够对常见的音视频文件进行语音识别,并将结果返回给调用者。API提供丰富的输出选项,包括全文级文字、句子级文字、词和时间戳等。

不同编程语言的SDK/API在参数命名规则、接口调用方式上存在差异,请根据实际编程语言参阅对应文档:

计量计费

实时语音识别

  • 单价:0.864元/小时

  • 免费额度10小时/月(累计时长)

录音文件识别

  • 单价:0.288元/小时

  • 免费额度10小时/月(累计时长)

相关文档

  • 定制热词:介绍定制热词的概念及API的使用。

  • 实时语音识别:介绍语音识别技术的基本概念、应用场景和解决方案。

  • 模型列表:提供模型的基本信息与计费说明。

  • 限流:概述模型限流规则。

上一篇: RESTful API 下一篇: 实时语音识别API详情
阿里云首页 大模型服务平台百炼 相关技术圈