Qwen-ASR实时语音识别WebSocket API

更新时间:
复制为 MD 格式

实时语音识别-千问服务通过 WebSocket 协议,接收实时音频流并实时转写。支持VAD 模式Manual 模式交互流程。

用户指南:关于模型介绍和选型建议请参见语音识别,示例代码请参见实时语音识别

服务端点

WebSocket URL 固定如下,通过查询参数 model 指定要调用的模型名称(将 <model_name> 替换为实际的模型):

华北2(北京)

wss://dashscope.aliyuncs.com/api-ws/v1/realtime?model=<model_name>

新加坡

wss://{WorkspaceId}.ap-southeast-1.maas.aliyuncs.com/api-ws/v1/realtime?model=<model_name>

调用时请将WorkspaceId替换为真实的Workspace ID

重要

新加坡地域的旧版域名 wss://dashscope-intl.aliyuncs.com 即将下线,请及时迁移到新版域名 wss://{WorkspaceId}.ap-southeast-1.maas.aliyuncs.com

重要

URL 必须使用 wss:// 协议。Authorization 在请求头中设置(参见请求头),模型通过 URL 查询参数 model 指定。

请求头

请求头中需添加如下信息:

参数

类型

是否必选

说明

Authorization

string

鉴权令牌,格式为 Bearer <your_api_key>,将 <your_api_key> 替换为实际的 API Key。

user-agent

string

客户端标识,便于服务端追踪来源。

X-DashScope-WorkSpace

string

阿里云百炼业务空间ID

X-DashScope-DataInspection

string

是否启用数据合规检测功能。默认不传或设为enable。如非必要,请勿启用该参数。

重要

Authorization 鉴权在 WebSocket 握手阶段验证。如果 API Key 无效或缺失,握手将失败并返回 HTTP 401/403 错误。

交互流程

客户端事件和服务端事件的详细说明,请参见客户端事件服务端事件

支持两种交互模式:

  • VAD 模式(默认):服务端自动检测语音的起点和终点(断句),适用于实时对话、会议记录等场景。

  • Manual 模式:由客户端控制断句,适用于客户端能明确判断语句边界的场景,如聊天软件中的发送语音。

VAD 模式(默认)

服务端自动检测语音的起点和终点(断句)。开发者只需持续发送音频流,服务端会在检测到一句话结束时自动返回最终识别结果。此模式适用于实时对话、会议记录等场景。

启用方式:配置客户端session.update事件的session.turn_detection参数。

image

Manual 模式

由客户端控制断句。客户端需要发送完一整句话的音频后,再发送一个input_audio_buffer.commit事件来通知服务端。此模式适用于客户端能明确判断语句边界的场景,如聊天软件中的发送语音。

启用方式:将客户端session.update事件的session.turn_detection设为null。

image