语音识别/翻译Gummy
产品简介
通义实验室Gummy语音翻译大模型支持实时语音识别和翻译。相比传统的级联“语音识别+翻译”技术,Gummy采用了业界领先的自研语音识别技术,翻译速度更快,延时更短,准确率更高,表现接近自然对话,提供优质的交互体验。
产品优势
识别翻译准确率更高:基于新一代自研语音大模型和海量语音数据,能够进行更接近真人的上下文思考,从而在识别和翻译的准确率上显著优于传统的级联系统,并更好地贴合语境。
实时翻译同传:采用创新的端到端语音大模型技术,支持无限上下文的实时同传。翻译速度更快,延时大幅低于人类专家,体验显著优于传统的级联系统。
丰富的多语种识别翻译功能:支持多种语言的双向互译,并且在无源语言信息的情况下可以直接翻译为目标语言。
丰富的功能:支持端到端的多语言翻译干预、语音识别热词定制、ITN规范和标点符号预测等功能。
广泛的领域/场景覆盖:适用于智能问答、语音指令、音视频字幕、教育、科技、会议、同传等各类场景和领域。
功能特性
Gummy提供了实时语音识别、翻译和一句话识别、翻译的功能。请根据实际使用场景进行选择。
一句话识别、翻译:对停顿更加敏感,支持对一分钟内的短语音进行精准识别,适用于对话聊天、指令控制、语音输入法、语音搜索等短时语音交互场景。
实时语音识别、翻译:适用于会议演讲、视频直播等长时间不间断识别的场景。
Gummy实时语音识别、翻译 | Gummy一句话识别、翻译 | |
接入方式 | Python、Java、WebSocket | Python、Java、WebSocket |
定制热词 | 支持,参见定制热词 | 支持,参见定制热词 |
时间戳 | 支持 | 支持 |
流式输入 | 支持 | 支持 |
流式输出 | 支持 | 支持 |
识别本地文件 | 支持 | 支持 |
标点符号预测 | 支持 | 支持 |
待识别音频格式 | 'pcm'、'wav'、'mp3'、'opus'、'speex'、'aac'、'amr' | 'pcm'、'wav'、'mp3'、'opus'、'speex'、'aac'、'amr' |
待识别音频声道 | 单声道 | 单声道 |
待识别音频采样率 | 16kHz及以上采样率 | 16kHz |
待识别音频时长 | 不限 | 60秒以内 |
可识别语言 | 中文、英文、日语、韩语、粤语、德语、法语、俄语、意大利语、西班牙语 | 中文、英文、日语、韩语、粤语、德语、法语、俄语、意大利语、西班牙语 |
翻译语言对 |
|
|
单价 | 0.54元/小时 | |
免费额度 | 36,000秒(10小时) 2025年1月17日0点前开通百炼:有效期至2025年7月15日 2025年1月17日0点后开通百炼:自开通日起180天有效 |
应用场景
一、实时语音翻译
国际会议与商务交流
在多语言环境中,实时语音翻译助力与会者即时理解不同语言的发言,促进跨国沟通与合作。
旅游与出行
在旅行或海外出差时,实时语音翻译帮助用户与当地人无障碍交流,解决问路、点餐、购物等场景中的语言障碍。
二、语音控制与交互
语音搜索
在地图导航、浏览器搜索等场景下,对语音进行识别,完成搜索功能,解放用户双手,提升操作便捷性。
语音指令
通过语音命令控制智能家居设备,实现空调开关、电视换台等操作,打造智能化生活体验。
语音短消息
利用音频转文字技术,快速预览语音短消息内容,提升信息处理效率。
三、实时语音识别
视频实时直播字幕
在现场演讲、实时直播等场景中,将音频实时转写为字幕,便于观众理解和内容管理。
实时会议记录
将会议、法庭庭审等场景中的音频实时转写为文字,辅助会议记录工作,适用于远程视频会议等场景。
实时客服记录
通过语音识别技术,将呼叫中心的语音对话实时转写为文字,支持实时质检和后续分析。
医院病历录入
在手术场景中,通过语音识别记录医生的操作指令,生成文本病历,提高录入效率。
四、语音文件处理
呼叫中心语音质检
上传呼叫中心录音文件,通过语音识别生成文本,进行违规话术、敏感词检测,确保服务质量。
庭审数据库录入
上传庭审录音文件,识别生成文本后录入数据库,便于后续查询和管理。
除上述应用场景外,Gummy 还支持更多需要语音识别和翻译的场景,为用户提供高效、准确的服务。
相关文档
实时语音识别、翻译API详情:介绍Gummy实时语音识别、翻译API的使用方法、参数说明及相关示例。
一句话识别、翻译API详情:介绍Gummy一句话识别、翻译API的使用方法、参数说明及相关示例。
定制热词:介绍定制热词的概念及API的使用。
语音识别/翻译:介绍语音识别/翻译技术的基本概念、应用场景和解决方案。
模型列表:提供模型的基本信息与计费说明。
限流:概述模型限流规则。