选择适合实时语音识别、录音文件转写等场景的模型。
通过以下两个问题可以快速缩小语音识别模型选择范围:
-
您需要在用户说话时实时获取结果,还是在录音结束后批量处理?
-
您的音频是否包含专业术语?
实时还是非实时?
实时
基于WebSocket协议,音频流式输入,文本流式输出。适用于实时字幕、语音助手和会议转写。
|
模型 |
系列 |
核心优势 |
|
|
Fun-ASR |
热词、方言支持、多语种混合识别 |
|
|
Qwen3-ASR |
情绪识别 |
|
|
Qwen3.5-Omni |
Prompt上下文注入、语义打断、113种语言 |
|
|
Qwen3.5-Omni |
轻量版,低成本 |
|
|
Qwen3-Omni(上一代) |
Prompt上下文注入 |
非实时
提交音频文件,轮询获取结果。支持最长12小时、最大2 GB的录音文件。适用于呼叫中心录音、播客和访谈等场景。
|
模型 |
系列 |
核心优势 |
|
|
Fun-ASR |
说话人分离、热词、多语种混合识别 |
|
|
Qwen3-ASR |
情绪识别 |
|
|
Qwen3.5-Omni |
Prompt上下文注入、113种语言、OpenAI兼容接口 |
|
|
Qwen3.5-Omni |
轻量版,低成本,OpenAI兼容HTTP接口 |
|
|
Qwen3-Omni-Flash(上一代) |
Prompt上下文注入、多模态、OpenAI兼容接口 |
近实时替代方案
非实时API也接受短音频片段。可以提交5秒的音频分片来获得近实时的识别结果,无需使用WebSocket。但真正的WebSocket方案可以避免重连开销,如果延迟敏感,建议使用实时模型。
处理专业术语
两种方式,按灵活性排序:
-
Prompt上下文注入(Qwen3.5-Omni):在系统提示词中描述您的领域背景,无需预配置。模型在每次请求时自适应。代价是每次请求的延迟高于专用ASR模型。
-
热词(Fun-ASR):提供带权重的词汇表。适合稳定且变化不频繁的术语列表。
Qwen3.5-Omni不是传统ASR,而是一个能理解音频的大语言模型。您通过Prompt注入上下文,模型无需热词列表即可自适应。
说话人分离
仅Fun-ASR系列的非实时模型(fun-asr、fun-asr-mtl)支持说话人分离。如果您需要区分"谁说了什么",请使用这些模型。
情绪识别
qwen3-asr-flash-realtime、qwen3-asr-flash-filetrans以及Qwen3.5-Omni系列模型在转写的同时支持情绪识别。
完整对比
|
模型 |
模式 |
API |
精度增强 |
情绪 |
说话人分离 |
支持语言 |
最大时长 |
|
|
实时 |
WebSocket |
热词(仅中国内地) |
不支持 |
不支持 |
中、英、日及方言 |
流式 |
|
|
非实时 |
异步REST |
热词 |
不支持 |
支持 |
中、英、日及方言 |
12小时 / 2GB |
|
|
实时 |
WebSocket |
-- |
支持 |
不支持 |
26种语言 |
流式 |
|
|
非实时 |
异步REST |
-- |
支持 |
不支持 |
26种语言 |
12小时 / 2GB |
|
|
实时 |
WebSocket |
热词 |
不支持 |
不支持 |
中、英、日、韩、德、法、俄 |
流式 |
|
|
非实时 |
异步REST |
热词 |
不支持 |
支持 |
中、英、日、韩、德、法、俄 |
12小时 / 2GB |
|
|
实时 |
WebSocket |
热词 |
支持 |
不支持 |
中文 |
流式 |
|
|
非实时 |
异步REST |
热词 |
不支持 |
不支持 |
中文 |
12小时 / 2GB |
|
|
非实时 |
HTTP(OpenAI兼容) |
Prompt上下文 |
支持 |
不支持 |
113种语言 |
单次请求限制 |
|
|
非实时 |
HTTP(OpenAI兼容) |
Prompt上下文 |
支持 |
不支持 |
113种语言 |
单次请求限制 |
|
|
实时 |
WebSocket |
Prompt上下文 |
支持 |
不支持 |
113种语言 |
120分钟 |
|
|
实时 |
WebSocket |
Prompt上下文 |
支持 |
不支持 |
113种语言 |
120分钟 |
|
|
非实时 |
HTTP(OpenAI兼容) |
Prompt上下文 |
支持 |
不支持 |
中、英、日、韩、德、法、意、西、葡、俄;中文方言:四川话、上海话、粤语、闽南语、陕西话、南京话、天津话、北京话 |
单次请求限制 |
|
|
实时 |
WebSocket |
Prompt上下文 |
支持 |
不支持 |
中、英、日、韩、德、法、意、西、葡、俄;中文方言:四川话、上海话、粤语、闽南语、陕西话、南京话、天津话、北京话 |
120分钟 |
所有模型均支持WAV、MP3、AAC等常见音频格式。
适用范围
不同地域支持的模型有所不同。请根据您的 API Key 所属地域查看可用模型。
中国内地
使用北京地域的 API Key 访问以下模型。
|
模型系列 |
模式 |
类型 |
可用模型 |
|
Fun-ASR |
实时 |
推荐 |
|
|
非实时 |
推荐 |
|
|
|
Qwen3-ASR |
实时 |
推荐 |
|
|
非实时 |
推荐 |
|
|
|
Qwen3.5-Omni Qwen3-Omni |
实时 / 非实时 |
推荐 |
|
|
Legacy |
实时 |
旧版 |
|
|
非实时 |
|
||
国际
使用新加坡地域的 API Key 访问以下模型。
|
模型系列 |
模式 |
可用模型 |
|
Fun-ASR |
实时 |
|
|
非实时 |
|
|
|
Qwen3-ASR |
实时 |
|
|
非实时 |
|
|
|
Qwen3.5-Omni |
实时 / 非实时 |
|
美国地域额外支持 qwen3-asr-flash-us(非实时),需使用美国地域的 API Key。