语音识别-SenseVoice

更新时间:2025-03-17 09:09:15

产品简介

SenseVoice语音识别大模型专注于高精度多语言语音识别、情感辨识和音频事件检测,支持超过50种语言的识别,整体效果优于Whisper模型,中文与粤语识别准确率相对提升在50%以上。

产品优势

  • 多语种识别:支持共计50+种语种的语音识别,尤其以中、英、日、韩、粤为重点支持语种。

  • 情感识别:支持四种情感的识别:生气(ANGRY)、高兴(HAPPY)、伤心(SAD)和中性(NEUTRAL)。

  • 事件识别:支持四种常见的事件识别:掌声(Applause)、背景音乐(BGM)、笑声(Laughter)和说话声(Speech)。

功能特性

接入方式

Python、Java、RESTful

定制热词

不支持

情感和事件识别

支持,可识别如下四种情绪和四种常见音频事件

  • 四种情绪:生气(ANGRY)、高兴(HAPPY)、伤心(SAD)和中性(NEUTRAL)

  • 四种常见的音频事件:掌声(Applause)、背景音乐(BGM)、笑声(Laughter)和说话声(Speech)

敏感词过滤

不支持

语气词过滤

不支持

自动说话人分离

不支持

说话人数量参考

不支持

时间戳

支持

流式输入

不支持

流式输出

不支持

识别本地文件

不支持,仅支持传入公网可访问的待识别文件URL

标点符号预测

支持

待识别音频格式

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

待识别音频声道

不限

待识别音频采样率

任意

待识别音频大小

单次识别最多能指定100个文件URL,每个URL对应的录音文件大小应小于等于2GB

语言

  • 重点语言:中文、英文、粤语、日语、韩语、俄语、法语、意大利语、德语、西班牙语

  • 更多语言:加泰罗尼亚语、印度尼西亚语、泰语、荷兰语、葡萄牙语、捷克语、波兰语等,详情请参见语言列表

单价

2.52元/小时

免费额度

10小时/月,详情参见新人免费额度

应用场景

语音文件处理

  • 呼叫中心语音质检

    上传呼叫中心录音文件,通过语音识别生成文本,进行违规话术、敏感词检测,确保服务质量。

  • 庭审数据库录入

    上传庭审录音文件,识别生成文本后录入数据库,便于后续查询和管理。

  • 会议记录总结

    对会议记录的音频文件进行识别,然后通过人工或者自动方法,对会议记录作出总结。

  • 医院病历录入

    手术时通过音频记录医生的操作,通过录音文件识别得到文本,提高病例录入效率。

除上述场景外,SenseVoice还适用于更多录音文件识别的场景,为用户提供高效、准确的服务。

API详情

SenseVoice语音识别提供的录音文件识别API,能够对常见的音视频文件进行语音识别,并将结果返回给调用者。

不同编程语言的SDK/API在参数命名规则、接口调用方式上存在差异,请根据实际编程语言参阅对应文档:

相关文档

  • 语音识别/翻译:介绍语音识别技术的基本概念、应用场景和解决方案。

  • 模型列表:提供模型的基本信息与计费说明。

  • 限流:概述模型限流规则。

  • 本页导读 (1)
  • 产品简介
  • 产品优势
  • 功能特性
  • 应用场景
  • API详情
  • 相关文档
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等