语音识别SenseVoice大模型

更新时间: 2025-01-24 15:35:57

产品简介

SenseVoice语音识别大模型专注于高精度多语言语音识别、情感辨识和音频事件检测,支持超过50种语言的识别,整体效果优于Whisper模型,中文与粤语识别准确率相对提升在50%以上。

产品优势

  • 多语种识别:支持共计50+种语种的语音识别,尤其以中、英、日、韩、粤为重点支持语种,可通过language_hints参数选择语种获得更准确的识别效果,详见附录:支持语言列表

情感识别

  • 支持4种情绪的情感识别:包括生气(ANGRY)、高兴(HAPPY)、伤心(SAD)和中性(NEUTRAL),若识别结果中未出现上述情感,或返回结果中包含<|SPECIAL_TOKEN_1|>,代表该语音中未检测到特定情绪。情感一般出现在识别结果最末端,以诸如今天天气好棒啊!<|HAPPY|>形式出现。

  • 音频事件检测:支持4种常见音频事件识别,包括掌声(Applause)、背景音乐(BGM)、笑声(Laughter)和说话声(Speech)。音频事件特殊符号包含起始与结束符两类,以掌声为例:假设识别结果为<|Applause|>今天<|/Applause|>天气好棒啊!<|Applause|><|/Applause|>分别代表掌声事件的起始与结束,整句话含义为在说“今天”两个字时,模型检测到了有掌声事件的存在。

功能特性

接入方式

定制热词

不支持

情感和事件识别

支持,可识别如下四种情绪和四种常见音频事件

  • 四种情绪:生气(ANGRY)、高兴(HAPPY)、伤心(SAD)和中性(NEUTRAL)

  • 四种常见的音频事件:掌声(Applause)、背景音乐(BGM)、笑声(Laughter)和说话声(Speech)

敏感词过滤

不支持

语气词过滤

不支持

自动说话人分离

不支持

说话人数量参考

不支持

时间戳

支持,参见录音文件识别API详情,可以通过begin_timeend_time参数查看

流式输入

不支持

流式输出

不支持

识别本地文件

不支持,仅支持传入公网可访问的待识别文件URL

标点符号预测

支持

待识别音频格式

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

待识别音频声道

不限

待识别音频采样率

任意

待识别音频大小

单次识别最多能指定100个文件URL,每个URL对应的录音文件大小应小于等于2GB,详见输入文件限制

语言

  • 重点语言:中文、英文、粤语、日语、韩语、俄语、法语、意大利语、德语、西班牙语

  • 更多语言:加泰罗尼亚语、印度尼西亚语、泰语、荷兰语、葡萄牙语、捷克语、波兰语等。详见附录:支持语言列表

单价

2.52元/小时

免费额度

10小时/月

应用场景

  • 呼叫中心语音质检

    上传呼叫中心的录音文件,通过录音文件识别得到文本。

  • 庭审数据库录入

    上传庭审记录的录音文件,进行识别后,将识别文本录入数据库。

  • 会议记录总结

    对会议记录的音频文件进行识别,然后通过人工或者自动方法,对会议记录作出总结。

  • 医院病历录入

    手术时通过音频记录医生的操作,通过录音文件识别得到文本,提高病例录入效率。

  • 更多应用场景

    除上述场景外,SenseVoice还适用于各种需要语音识别的场景,为用户提供高效、准确的服务。

相关文档

您可以通过阅读以下文档了解更多:

上一篇: 计量计费 下一篇: 快速开始
阿里云首页 大模型服务平台百炼 相关技术圈