语音识别SenseVoice大模型
产品简介
SenseVoice语音识别大模型专注于高精度多语言语音识别、情感辨识和音频事件检测,支持超过50种语言的识别,整体效果优于Whisper模型,中文与粤语识别准确率相对提升在50%以上。
产品优势
多语种识别:支持共计50+种语种的语音识别,尤其以中、英、日、韩、粤为重点支持语种,可通过language_hints参数选择语种获得更准确的识别效果,详见附录:支持语言列表。
情感识别
支持4种情绪的情感识别:包括生气(ANGRY)、高兴(HAPPY)、伤心(SAD)和中性(NEUTRAL),若识别结果中未出现上述情感,或返回结果中包含
<|SPECIAL_TOKEN_1|>
,代表该语音中未检测到特定情绪。情感一般出现在识别结果最末端,以诸如今天天气好棒啊!<|HAPPY|>
形式出现。音频事件检测:支持4种常见音频事件识别,包括掌声(Applause)、背景音乐(BGM)、笑声(Laughter)和说话声(Speech)。音频事件特殊符号包含起始与结束符两类,以掌声为例:假设识别结果为
<|Applause|>今天<|/Applause|>天气好棒啊!
,<|Applause|>
与<|/Applause|>
分别代表掌声事件的起始与结束,整句话含义为在说“今天”两个字时,模型检测到了有掌声事件的存在。
功能特性
接入方式 |
|
定制热词 | 不支持 |
情感和事件识别 | 支持,可识别如下四种情绪和四种常见音频事件
|
敏感词过滤 | 不支持 |
语气词过滤 | 不支持 |
自动说话人分离 | 不支持 |
说话人数量参考 | 不支持 |
时间戳 | 支持,参见录音文件识别API详情,可以通过 |
流式输入 | 不支持 |
流式输出 | 不支持 |
识别本地文件 | 不支持,仅支持传入公网可访问的待识别文件URL |
标点符号预测 | 支持 |
待识别音频格式 | aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv |
待识别音频声道 | 不限 |
待识别音频采样率 | 任意 |
待识别音频大小 | 单次识别最多能指定100个文件URL,每个URL对应的录音文件大小应小于等于2GB,详见输入文件限制 |
语言 |
|
单价 | 2.52元/小时 |
免费额度 | 10小时/月 |
应用场景
呼叫中心语音质检
上传呼叫中心的录音文件,通过录音文件识别得到文本。
庭审数据库录入
上传庭审记录的录音文件,进行识别后,将识别文本录入数据库。
会议记录总结
对会议记录的音频文件进行识别,然后通过人工或者自动方法,对会议记录作出总结。
医院病历录入
手术时通过音频记录医生的操作,通过录音文件识别得到文本,提高病例录入效率。
更多应用场景
除上述场景外,SenseVoice还适用于各种需要语音识别的场景,为用户提供高效、准确的服务。
相关文档
您可以通过阅读以下文档了解更多: