本文档介绍如何使用 DashScope Java SDK 调用实时音视频翻译(Qwen-LiveTranslate)模型。
前提条件
-
安装SDK,确保DashScope SDK版本不低于2.22.5。
新加坡地域的旧版域名 wss://dashscope-intl.aliyuncs.com 即将下线,请及时迁移到新版域名 wss://{WorkspaceId}.ap-southeast-1.maas.aliyuncs.com。
请求参数
-
以下参数通过
OmniRealtimeParam的链式方法设置。参数
类型
是否必须
说明
modelString是
指定要使用的模型名称,推荐使用
qwen3.5-livetranslate-flash-realtime。qwen3-livetranslate-flash-realtime为旧版模型。urlString是
实时翻译服务地址:
-
中国内地:
wss://dashscope.aliyuncs.com/api-ws/v1/realtime -
新加坡:
wss://{WorkspaceId}.ap-southeast-1.maas.aliyuncs.com/api-ws/v1/realtime
apikeyString否
设置API Key。
-
-
以下参数通过
OmniRealtimeConfig的链式方法设置。参数
类型
是否必须
说明
modalitiesList<OmniRealtimeModality>否
模型输出模态。
默认值:
[OmniRealtimeModality.AUDIO, OmniRealtimeModality.TEXT]。取值范围:
-
[OmniRealtimeModality.TEXT]:仅输出文本 -
[OmniRealtimeModality.AUDIO, OmniRealtimeModality.TEXT]:输出文本和音频
voiceString否
生成音频的音色。
默认值:
-
Qwen3.5-LiveTranslate-Flash-Realtime默认音色为:
Tina -
Qwen3-LiveTranslate-Flash-Realtime默认音色为:
Cherry
可选值:参见支持的音色。
inputAudioFormatOmniRealtimeAudioFormat否
输入音频格式。
默认值:
OmniRealtimeAudioFormat.PCM_16000HZ_MONO_16BIT。outputAudioFormatOmniRealtimeAudioFormat否
输出音频格式。
默认值:
OmniRealtimeAudioFormat.PCM_24000HZ_MONO_16BIT。InputAudioTranscriptionString否
输入音频转录模型。如需输出原文转录,则必须设置此参数。
可选值:
qwen3-asr-flash-realtime。translationConfigOmniRealtimeTranslationParam否
翻译相关配置。
-
-
以下参数通过OmniRealtimeTranslationParam的链式方法设置。
参数
类型
是否必须
说明
languageString否
翻译目标语言代码。
默认值:
en。可选值:参见支持的语种。
corpusOmniRealtimeTranslationParam.Corpus否
热词配置,用于提升特定词汇的翻译准确性。
corpus.phrasesMap<String, Object>否
热词映射表。key 为源语言词汇,value 为目标语言对应翻译。
示例:
{"人工智能": "Artificial Intelligence"}
关键接口
OmniRealtimeConversation类
OmniRealtimeConversation通过import com.alibaba.dashscope.audio.omni.OmniRealtimeConversation;方法引入。
|
方法签名 |
服务端响应事件(通过回调下发) |
说明 |
|
无 |
构造方法。 |
|
会话已创建 会话配置已更新 |
和服务端创建连接。 |
|
会话配置已更新 |
用于更新会话配置,建议在连接建立后首先调用该方法进行设置。若未调用该方法,系统将使用默认配置。只需关注 |
|
无 |
将Base64编码后的音频数据片段追加到云端输入音频缓冲区。服务端会自动检测语音起止并触发翻译。 |
|
服务端完成语音翻译,结束会话 |
通知服务端结束会话,服务端收到会话结束通知后将完成最后的语音翻译。 |
|
无 |
终止任务,并关闭连接。 |
|
无 |
获取当前任务的session_id。 |
|
无 |
获取最近一次response的response_id。 |
|
无 |
获取最近一次响应的首个文本延迟(毫秒)。 |
|
无 |
获取最近一次响应的首个音频延迟(毫秒)。 |
回调接口(OmniRealtimeCallback)
服务端会通过回调的方式,将服务端响应事件和数据返回给客户端。
继承此类并实现相应方法以处理服务端事件。
通过import com.alibaba.dashscope.audio.omni.OmniRealtimeCallback;引入。
|
方法签名 |
参数 |
说明 |
|
无 |
WebSocket连接成功建立时触发。 |
|
message:服务端事件 |
收到服务端事件时触发。 |
|
code:状态码 reason:WebSocket连接关闭时的日志信息 |
WebSocket连接关闭时触发。 |
完整示例
以下示例展示如何从麦克风实时录音并进行翻译。