语音识别-大模型服务平台百炼(Model Studio)-阿里云帮助中心

实时还是非实时？

实时

基于WebSocket协议，音频流式输入，文本流式输出。适用于实时字幕、语音助手和会议转写。

模型	系列	核心优势
`fun-asr-realtime`	Fun-ASR	热词、方言支持、多语种混合识别
`qwen3-asr-flash-realtime`	Qwen3-ASR	情绪识别
`qwen3.5-omni-plus-realtime`	Qwen3.5-Omni	Prompt上下文注入、语义打断、113种语言
`qwen3.5-omni-flash-realtime`	Qwen3.5-Omni	轻量版，低成本
`qwen3-omni-flash-realtime`	Qwen3-Omni（上一代）	Prompt上下文注入

非实时

提交音频文件，轮询获取结果。支持最长12小时、最大2 GB的录音文件。适用于呼叫中心录音、播客和访谈等场景。

模型	系列	核心优势
`fun-asr`	Fun-ASR	说话人分离、热词、多语种混合识别
`qwen3-asr-flash-filetrans`	Qwen3-ASR	情绪识别
`qwen3.5-omni-plus`	Qwen3.5-Omni	Prompt上下文注入、113种语言、OpenAI兼容接口
`qwen3.5-omni-flash`	Qwen3.5-Omni	轻量版，低成本，OpenAI兼容HTTP接口
`qwen3-omni-flash`	Qwen3-Omni-Flash（上一代）	Prompt上下文注入、多模态、OpenAI兼容接口

近实时替代方案

非实时API也接受短音频片段。可以提交5秒的音频分片来获得近实时的识别结果，无需使用WebSocket。但真正的WebSocket方案可以避免重连开销，如果延迟敏感，建议使用实时模型。

处理专业术语

两种方式，按灵活性排序：

Prompt上下文注入（Qwen3.5-Omni）：在系统提示词中描述您的领域背景，无需预配置。模型在每次请求时自适应。代价是每次请求的延迟高于专用ASR模型。
热词（Fun-ASR）：提供带权重的词汇表。适合稳定且变化不频繁的术语列表。

说明

Qwen3.5-Omni不是传统ASR，而是一个能理解音频的大语言模型。您通过Prompt注入上下文，模型无需热词列表即可自适应。

说话人分离

仅Fun-ASR系列的非实时模型（fun-asr、fun-asr-mtl）支持说话人分离。如果您需要区分"谁说了什么"，请使用这些模型。

情绪识别

qwen3-asr-flash-realtime、qwen3-asr-flash-filetrans以及Qwen3.5-Omni系列模型在转写的同时支持情绪识别。

完整对比

模型	模式	API	精度增强	情绪	说话人分离	支持语言	最大时长
`fun-asr-realtime`	实时	WebSocket	热词（仅中国内地）	不支持	不支持	中、英、日及方言	流式
`fun-asr`	非实时	异步REST	热词	不支持	支持	中、英、日及方言	12小时 / 2GB
`qwen3-asr-flash-realtime`	实时	WebSocket	--	支持	不支持	26种语言	流式
`qwen3-asr-flash-filetrans`	非实时	异步REST	--	支持	不支持	26种语言	12小时 / 2GB
`paraformer-realtime-v2`	实时	WebSocket	热词	不支持	不支持	中、英、日、韩、德、法、俄	流式
`paraformer-v2`	非实时	异步REST	热词	不支持	支持	中、英、日、韩、德、法、俄	12小时 / 2GB
`paraformer-realtime-8k-v2`	实时	WebSocket	热词	支持	不支持	中文	流式
`paraformer-8k-v2`	非实时	异步REST	热词	不支持	不支持	中文	12小时 / 2GB
`qwen3.5-omni-plus`	非实时	HTTP（OpenAI兼容）	Prompt上下文	支持	不支持	113种语言	单次请求限制
`qwen3.5-omni-flash`	非实时	HTTP（OpenAI兼容）	Prompt上下文	支持	不支持	113种语言	单次请求限制
`qwen3.5-omni-plus-realtime`	实时	WebSocket	Prompt上下文	支持	不支持	113种语言	120分钟
`qwen3.5-omni-flash-realtime`	实时	WebSocket	Prompt上下文	支持	不支持	113种语言	120分钟
`qwen3-omni-flash`（上一代）	非实时	HTTP（OpenAI兼容）	Prompt上下文	支持	不支持	中、英、日、韩、德、法、意、西、葡、俄；中文方言：四川话、上海话、粤语、闽南语、陕西话、南京话、天津话、北京话	单次请求限制
`qwen3-omni-flash-realtime`（上一代）	实时	WebSocket	Prompt上下文	支持	不支持	中、英、日、韩、德、法、意、西、葡、俄；中文方言：四川话、上海话、粤语、闽南语、陕西话、南京话、天津话、北京话	120分钟

说明

所有模型均支持WAV、MP3、AAC等常见音频格式。

适用范围

不同地域支持的模型有所不同。请根据您的 API Key 所属地域查看可用模型。

中国内地

使用北京地域的 API Key 访问以下模型。

模型系列	模式	类型	可用模型
Fun-ASR	实时	推荐	`fun-asr-realtime`、`fun-asr-flash-8k-realtime`、`fun-asr-mtl-realtime`
Fun-ASR	非实时	推荐	`fun-asr`、`fun-asr-mtl`
Qwen3-ASR	实时	推荐	`qwen3-asr-flash-realtime`
Qwen3-ASR	非实时	推荐	`qwen3-asr-flash-filetrans`、`qwen3-asr-flash`
Qwen3.5-Omni Qwen3-Omni	实时 / 非实时	推荐	`qwen3.5-omni-plus-realtime`、`qwen3.5-omni-flash-realtime`、`qwen3.5-omni-plus`、`qwen3.5-omni-flash`、`qwen3-omni-flash-realtime`（上一代）、`qwen3-omni-flash`（上一代）
Legacy	实时	旧版	`gummy-realtime-v1`、`gummy-chat-v1`、`paraformer-realtime-v2`、`paraformer-realtime-v1`、`paraformer-realtime-8k-v2`、`paraformer-realtime-8k-v1`
	非实时		`paraformer-v2`、`paraformer-8k-v2`、`paraformer-v1`、`paraformer-8k-v1`、`paraformer-mtl-v1`、`sensevoice-v1`
	非实时

国际

使用新加坡地域的 API Key 访问以下模型。

模型系列	模式	可用模型
Fun-ASR	实时	`fun-asr-realtime`
Fun-ASR	非实时	`fun-asr`、`fun-asr-mtl`
Qwen3-ASR	实时	`qwen3-asr-flash-realtime`
Qwen3-ASR	非实时	`qwen3-asr-flash-filetrans`、`qwen3-asr-flash`
Qwen3.5-Omni	实时 / 非实时	`qwen3.5-omni-plus-realtime`、`qwen3.5-omni-flash-realtime`、`qwen3.5-omni-plus`、`qwen3.5-omni-flash`、`qwen3-omni-flash-realtime`（上一代）、`qwen3-omni-flash`（上一代）

说明

美国地域额外支持 qwen3-asr-flash-us（非实时），需使用美国地域的 API Key。