本文介绍 Qwen-ASR 模型的输入与输出参数。可通过OpenAI 兼容或DashScope协议调用 API。
用户指南:模型介绍和选型请参见录音文件识别-通义千问。
模型接入方式
不同模型支持的接入方式不同,请根据下表选择正确的方式进行集成。
模型 | 接入方式 |
通义千问3-ASR-Flash-Filetrans | 仅支持DashScope异步调用方式 |
通义千问3-ASR-Flash | |
通义千问Audio ASR | 仅支持DashScope同步调用方式 |
OpenAI 兼容
URL
中国内地(北京)
HTTP请求地址:POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions
SDK调用配置的base_url:https://dashscope.aliyuncs.com/compatible-mode/v1
国际(新加坡)
HTTP请求地址:POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions
SDK调用配置的base_url:https://dashscope-intl.aliyuncs.com/compatible-mode/v1
请求体 | 输入内容:音频文件URLPython SDKNode.js SDKcURL通过System Message的 输入内容:Base64编码的音频文件可输入Base64编码数据(Data URL),格式为:
Python SDK示例中用到的音频文件为:welcome.mp3。 Node.js SDK示例中用到的音频文件为:welcome.mp3。 |
model 模型名称。仅适用于通义千问3-ASR-Flash模型。 | |
messages 消息列表。 | |
asr_options 用来指定某些功能是否启用。
| |
stream 是否以流式输出方式回复。相关文档:流式输出 可选值:
推荐设置为 | |
stream_options 流式输出的配置项,仅在 |
返回体 | 非流式输出流式输出 |
id 本次调用的唯一标识符。 | |
choices 模型的输出信息。 | |
created 请求创建时的 Unix 时间戳(秒)。 | |
model 本次请求使用的模型。 | |
object 始终为 | |
usage 本次请求的Token消耗信息。 |
DashScope同步调用
URL
中国内地(北京)
HTTP请求地址:POST https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation
SDK调用配置的base_url:https://dashscope.aliyuncs.com/api/v1
国际(新加坡)
HTTP请求地址:POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation
SDK调用配置的base_url:https://dashscope-intl.aliyuncs.com/api/v1
请求体 | 通义千问3-ASR-Flash以下示例为音频 URL 识别;本地音频文件识别示例请参见快速开始。 cURLJavaPython通义千问Audio ASR以下示例为音频 URL 识别;本地音频文件识别示例请参见快速开始。 cURLJavaPython |
model 模型名称。仅适用于通义千问3-ASR-Flash和通义千问Audio ASR模型。 | |
messages 消息列表。 通过HTTP调用时,请将messages 放入 input 对象中。 | |
asr_options 用来指定某些功能是否启用。 仅通义千问3-ASR-Flash支持该参数,通义千问Audio ASR不支持。 |
返回体 | 通义千问3-ASR-Flash通义千问Audio ASR |
request_id 本次调用的唯一标识符。 Java SDK返回参数为requestId。 | |
output 调用结果信息。 | |
usage 本次请求的Token消耗信息。 |
DashScope异步调用
流程说明
与OpenAI兼容模式或DashScope同步调用(均为一次请求、立即返回结果)不同,异步调用专为处理长音频文件或耗时较长的任务设计,该模式采用“提交-轮询”的两步式流程,避免了因长时间等待而导致的请求超时:
第一步:提交任务
客户端发起一个异步处理请求。
服务器验证请求后,不会立即执行任务,而是返回一个唯一的
task_id,表示任务已成功创建。
第二步:获取结果
客户端使用获取到的
task_id,通过轮询方式反复调用结果查询接口。当任务处理完成后,结果查询接口将返回最终的识别结果。
您可以根据集成环境选择使用SDK或直接调用RESTful API。
使用 SDK(示例代码请参见快速开始,请求参数请参见提交任务的请求体,返回结果请参见异步调用识别结果说明)
SDK封装了底层的API调用细节,提供了更便捷的编程体验。
提交任务:调用
async_call()(Python) 或asyncCall()(Java) 方法提交任务。此方法将返回一个包含task_id的任务对象。获取结果:使用上一步返回的任务对象或
task_id,调用fetch()方法获取结果。SDK内部会自动处理轮询逻辑,直到任务完成或超时。
2. 使用 RESTful API
直接调用HTTP接口提供了最大的灵活性。
提交任务
URL
中国内地(北京)
HTTP请求地址:POST https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription
SDK调用配置的base_url:https://dashscope.aliyuncs.com/api/v1
国际(新加坡)
HTTP请求地址:POST https://dashscope-intl.aliyuncs.com/api/v1/services/audio/asr/transcription
SDK调用配置的base_url:https://dashscope-intl.aliyuncs.com/api/v1
请求体 | cURLJavaSDK示例请参见快速开始。 PythonSDK示例请参见快速开始。 |
model 模型名称。仅适用于通义千问3-ASR-Flash-Filetrans模型。 | |
input | |
parameters |
返回体 | |
request_id 本次调用的唯一标识符。 | |
output 调用结果信息。 |
获取任务执行结果
URL
中国内地(北京)
HTTP请求地址:GET https://dashscope.aliyuncs.com/api/v1/tasks/{task_id}
SDK调用配置的base_url:https://dashscope.aliyuncs.com/api/v1
国际(新加坡)
HTTP请求地址:GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id}
SDK调用配置的base_url:https://dashscope-intl.aliyuncs.com/api/v1
请求体 | cURLJavaSDK示例请参见快速开始。 PythonSDK示例请参见快速开始。 |
task_id 任务ID。将提交任务返回结果中的task_id作为参数传入,查询语音识别结果。 |
返回体 | RUNNINGSUCCEEDEDFAILED |
request_id 本次调用的唯一标识符。 | |
output 调用结果信息。 |
异步调用识别结果说明 | |
file_url 被识别的音频文件URL。 | |
audio_info 被识别音频文件相关信息。 | |
transcripts 完整的识别结果列表,每个元素对应一条音轨的识别内容。 |