语音识别

更新时间:
复制为 MD 格式

选择适合实时语音识别、录音文件转写等场景的模型。

通过以下两个问题可以快速缩小语音识别模型选择范围:

  1. 您需要在用户说话时实时获取结果,还是在录音结束后批量处理?

  2. 您的音频是否包含专业术语?

实时还是非实时?

实时

基于WebSocket协议,音频流式输入,文本流式输出。适用于实时字幕、语音助手和会议转写。

模型

系列

核心优势

fun-asr-realtime

Fun-ASR

热词、方言支持、多语种混合识别

qwen3-asr-flash-realtime

Qwen3-ASR

情绪识别

qwen3.5-omni-plus-realtime

Qwen3.5-Omni

Prompt上下文注入、语义打断、113种语言

qwen3.5-omni-flash-realtime

Qwen3.5-Omni

轻量版,低成本

qwen3-omni-flash-realtime

Qwen3-Omni(上一代)

Prompt上下文注入

非实时

提交音频文件,轮询获取结果。支持最长12小时、最大2 GB的录音文件。适用于呼叫中心录音、播客和访谈等场景。

模型

系列

核心优势

fun-asr

Fun-ASR

说话人分离、热词、多语种混合识别

qwen3-asr-flash-filetrans

Qwen3-ASR

情绪识别

qwen3.5-omni-plus

Qwen3.5-Omni

Prompt上下文注入、113种语言、OpenAI兼容接口

qwen3.5-omni-flash

Qwen3.5-Omni

轻量版,低成本,OpenAI兼容HTTP接口

qwen3-omni-flash

Qwen3-Omni-Flash(上一代)

Prompt上下文注入、多模态、OpenAI兼容接口

近实时替代方案

非实时API也接受短音频片段。可以提交5秒的音频分片来获得近实时的识别结果,无需使用WebSocket。但真正的WebSocket方案可以避免重连开销,如果延迟敏感,建议使用实时模型。

处理专业术语

两种方式,按灵活性排序:

  1. Prompt上下文注入(Qwen3.5-Omni):在系统提示词中描述您的领域背景,无需预配置。模型在每次请求时自适应。代价是每次请求的延迟高于专用ASR模型。

  2. 热词(Fun-ASR):提供带权重的词汇表。适合稳定且变化不频繁的术语列表。

说明

Qwen3.5-Omni不是传统ASR,而是一个能理解音频的大语言模型。您通过Prompt注入上下文,模型无需热词列表即可自适应。

说话人分离

Fun-ASR系列的非实时模型(fun-asrfun-asr-mtl)支持说话人分离。如果您需要区分"谁说了什么",请使用这些模型。

情绪识别

qwen3-asr-flash-realtimeqwen3-asr-flash-filetrans以及Qwen3.5-Omni系列模型在转写的同时支持情绪识别。

完整对比

模型

模式

API

精度增强

情绪

说话人分离

支持语言

最大时长

fun-asr-realtime

实时

WebSocket

热词(仅中国内地)

不支持

不支持

中、英、日及方言

流式

fun-asr

非实时

异步REST

热词

不支持

支持

中、英、日及方言

12小时 / 2GB

qwen3-asr-flash-realtime

实时

WebSocket

--

支持

不支持

26种语言

流式

qwen3-asr-flash-filetrans

非实时

异步REST

--

支持

不支持

26种语言

12小时 / 2GB

paraformer-realtime-v2

实时

WebSocket

热词

不支持

不支持

中、英、日、韩、德、法、俄

流式

paraformer-v2

非实时

异步REST

热词

不支持

支持

中、英、日、韩、德、法、俄

12小时 / 2GB

paraformer-realtime-8k-v2

实时

WebSocket

热词

支持

不支持

中文

流式

paraformer-8k-v2

非实时

异步REST

热词

不支持

不支持

中文

12小时 / 2GB

qwen3.5-omni-plus

非实时

HTTP(OpenAI兼容)

Prompt上下文

支持

不支持

113种语言

单次请求限制

qwen3.5-omni-flash

非实时

HTTP(OpenAI兼容)

Prompt上下文

支持

不支持

113种语言

单次请求限制

qwen3.5-omni-plus-realtime

实时

WebSocket

Prompt上下文

支持

不支持

113种语言

120分钟

qwen3.5-omni-flash-realtime

实时

WebSocket

Prompt上下文

支持

不支持

113种语言

120分钟

qwen3-omni-flash(上一代)

非实时

HTTP(OpenAI兼容)

Prompt上下文

支持

不支持

中、英、日、韩、德、法、意、西、葡、俄;中文方言:四川话、上海话、粤语、闽南语、陕西话、南京话、天津话、北京话

单次请求限制

qwen3-omni-flash-realtime(上一代)

实时

WebSocket

Prompt上下文

支持

不支持

中、英、日、韩、德、法、意、西、葡、俄;中文方言:四川话、上海话、粤语、闽南语、陕西话、南京话、天津话、北京话

120分钟

说明

所有模型均支持WAV、MP3、AAC等常见音频格式。

适用范围

不同地域支持的模型有所不同。请根据您的 API Key 所属地域查看可用模型。

中国内地

使用北京地域的 API Key 访问以下模型。

模型系列

模式

类型

可用模型

Fun-ASR

实时

推荐

fun-asr-realtimefun-asr-flash-8k-realtimefun-asr-mtl-realtime

非实时

推荐

fun-asrfun-asr-mtl

Qwen3-ASR

实时

推荐

qwen3-asr-flash-realtime

非实时

推荐

qwen3-asr-flash-filetransqwen3-asr-flash

Qwen3.5-Omni

Qwen3-Omni

实时 / 非实时

推荐

qwen3.5-omni-plus-realtimeqwen3.5-omni-flash-realtimeqwen3.5-omni-plusqwen3.5-omni-flashqwen3-omni-flash-realtime(上一代)、qwen3-omni-flash(上一代)

Legacy

实时

旧版

gummy-realtime-v1gummy-chat-v1paraformer-realtime-v2paraformer-realtime-v1paraformer-realtime-8k-v2paraformer-realtime-8k-v1

非实时

paraformer-v2paraformer-8k-v2paraformer-v1paraformer-8k-v1paraformer-mtl-v1sensevoice-v1

国际

使用新加坡地域的 API Key 访问以下模型。

模型系列

模式

可用模型

Fun-ASR

实时

fun-asr-realtime

非实时

fun-asrfun-asr-mtl

Qwen3-ASR

实时

qwen3-asr-flash-realtime

非实时

qwen3-asr-flash-filetransqwen3-asr-flash

Qwen3.5-Omni

实时 / 非实时

qwen3.5-omni-plus-realtimeqwen3.5-omni-flash-realtimeqwen3.5-omni-plusqwen3.5-omni-flashqwen3-omni-flash-realtime(上一代)、qwen3-omni-flash(上一代)

说明

美国地域额外支持 qwen3-asr-flash-us(非实时),需使用美国地域的 API Key。