产品简介
SenseVoice语音识别大模型专注于高精度多语言语音识别、情感辨识和音频事件检测,支持超过50种语言的识别,整体效果优于Whisper模型,中文与粤语识别准确率相对提升在50%以上。
产品优势
多语种识别:支持共计50+种语种的语音识别,尤其以中、英、日、韩、粤为重点支持语种。
情感识别:支持四种情感的识别:生气(ANGRY)、高兴(HAPPY)、伤心(SAD)和中性(NEUTRAL)。
事件识别:支持四种常见的事件识别:掌声(Applause)、背景音乐(BGM)、笑声(Laughter)和说话声(Speech)。
功能特性
接入方式 | Python、Java、RESTful |
定制热词 | 不支持 |
情感和事件识别 | 支持,可识别如下四种情绪和四种常见音频事件
|
敏感词过滤 | 不支持 |
语气词过滤 | 不支持 |
自动说话人分离 | 不支持 |
说话人数量参考 | 不支持 |
时间戳 | 支持 |
流式输入 | 不支持 |
流式输出 | 不支持 |
识别本地文件 | 不支持,仅支持传入公网可访问的待识别文件URL |
标点符号预测 | 支持 |
待识别音频格式 | aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv |
待识别音频声道 | 不限 |
待识别音频采样率 | 任意 |
待识别音频大小 | 单次识别最多能指定100个文件URL,每个URL对应的录音文件大小应小于等于2GB |
语言 |
|
单价 | 2.52元/小时 |
免费额度 | 10小时/月,详情参见新人免费额度 |
应用场景
语音文件处理
呼叫中心语音质检
上传呼叫中心录音文件,通过语音识别生成文本,进行违规话术、敏感词检测,确保服务质量。
庭审数据库录入
上传庭审录音文件,识别生成文本后录入数据库,便于后续查询和管理。
会议记录总结
对会议记录的音频文件进行识别,然后通过人工或者自动方法,对会议记录作出总结。
医院病历录入
手术时通过音频记录医生的操作,通过录音文件识别得到文本,提高病例录入效率。
除上述场景外,SenseVoice还适用于更多录音文件识别的场景,为用户提供高效、准确的服务。
API详情
SenseVoice语音识别提供的录音文件识别API,能够对常见的音视频文件进行语音识别,并将结果返回给调用者。
不同编程语言的SDK/API在参数命名规则、接口调用方式上存在差异,请根据实际编程语言参阅对应文档:
Java:Java API
Python:Python API
其他编程语言:RESTful API
相关文档
- 本页导读 (1)
- 产品简介
- 产品优势
- 功能特性
- 应用场景
- API详情
- 相关文档