本文介绍Paraformer录音文件识别Python SDK的参数和接口细节。
用户指南:关于模型介绍和选型建议请参见录音文件识别。
在线体验:仅paraformer-v2、paraformer-8k-v1、paraformer-v1和paraformer-mtl-v1支持在线体验。
前提条件
已开通服务并获取API Key。请配置API Key到环境变量,而非硬编码在代码中,防范因代码泄露导致的安全风险。
说明当您需要为第三方应用或用户提供临时访问权限,或者希望严格控制敏感数据访问、删除等高风险操作时,建议使用临时鉴权Token。
与长期有效的 API Key 相比,临时鉴权 Token 具备时效性短(60秒)、安全性高的特点,适用于临时调用场景,能有效降低API Key泄露的风险。
使用方式:在代码中,将原本用于鉴权的 API Key 替换为获取到的临时鉴权 Token 即可。
模型列表
v2模型(推荐)
paraformer-v2 | paraformer-8k-v2 | |
适用场景 | 直播、会议等场景的多语种识别 | 电话客服、语音信箱等场景的中文识别 |
采样率 | 任意 | 8kHz |
语种 | 中文(包含中文普通话和各种方言)、英文、日语、韩语、德语、法语、俄语 支持的中文方言:上海话、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、江西话、宁夏话、山西话、陕西话、山东话、四川话、天津话、云南话、粤语 | 中文 |
标点符号预测 | ✅ 默认支持,无需配置 | ✅ 默认支持,无需配置 |
逆文本正则化(ITN) | ✅ 默认支持,无需配置 | ✅ 默认支持,无需配置 |
定制热词 | ✅ 参见定制热词 | ✅ 参见定制热词 |
指定待识别语种 | ✅ 通过 | ❌ |
v1模型
paraformer-v1 | paraformer-8k-v1 | paraformer-mtl-v1 | |
适用场景 | 访谈、讲座等中英文混合场景 | 电话客服、语音信箱等8kHz采样率音频处理 | 国际会议、访谈等多语种交替发言场景 |
采样率 | 任意 | 8kHz | 16kHz及以上 |
语种 | 中文、英文 | 中文 | 中文(包含中文普通话和各种方言)、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语 支持的中文方言:粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话 |
标点符号预测 | ✅ 默认支持,无需配置 | ✅ 默认支持,无需配置 | ✅ 默认支持,无需配置 |
逆文本正则化(ITN) | ✅ 默认支持,无需配置 | ✅ 默认支持,无需配置 | ✅ 默认支持,无需配置 |
定制热词 | |||
指定待识别语种 | ❌ | ❌ | ❌ |
约束
服务不支持本地音视频文件直传(也不支持base64格式音频),输入源需为可通过公网访问的文件URL(支持HTTP/HTTPS协议,示例:https://your-domain.com/file.mp3
)。
URL通过file_urls
参数指定,单次请求最多支持100个URL。
音频格式
aac
、amr
、avi
、flac
、flv
、m4a
、mkv
、mov
、mp3
、mp4
、mpeg
、ogg
、opus
、wav
、webm
、wma
、wmv
重要由于音视频格式及其变种众多,技术上无法穷尽测试,API不能保证所有格式均能够被正确识别。请通过测试验证您所提供的文件能够获得正常的语音识别结果。
音频采样率
采样率因模型而异:
paraformer-v2 支持任意采样率
paraformer-v1 支持任意采样率
paraformer-8k-v2 仅支持8kHz采样率
paraformer-8k-v1 仅支持8kHz采样率
paraformer-mtl-v1 支持16kHz及以上采样率
音频文件大小和时长
音频文件不超过2GB;时长在12小时以内。
如果希望处理的文件超过了上述限制,可尝试对文件进行预处理以降低文件尺寸。有关文件预处理的最佳实践可以查阅预处理视频文件以提高文件转写效率(针对录音文件识别场景)。
批处理音频数目
单次请求最多支持100个文件URL。
可识别语言
因模型而异:
paraformer-v2:
中文,包含中文普通话和各种方言:上海话、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、江西话、宁夏话、山西话、陕西话、山东话、四川话、天津话、云南话、粤语
英文
日语
韩语
paraformer-8k-v2 仅支持中文
paraformer-v1 仅支持中英文
paraformer-8k-v1 仅支持中文
paraformer-mtl-v1:中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话)、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语。
快速开始
核心类(Transcription)提供了异步提交任务、同步等待任务结束和异步查询任务执行结果的接口。可通过如下两种调用方式进行录音文件识别:
异步提交任务+同步等待任务结束:提交任务后,阻塞当前线程直到任务结束并获取识别结果。
异步提交任务+异步查询任务执行结果:提交任务后,在需要的时候通过调用查询任务接口获取任务的执行结果。
异步提交任务+同步等待任务结束
调用核心类(Transcription)的
async_call
方法并设置请求参数。说明文件转写服务对通过API提交的任务采取尽力服务原则进行处理。任务提交后将进入排队(
PENDING
)状态,排队时间取决于队列长度和文件时长,无法明确给出,通常在数分钟内。任务开始处理后,语音识别将以数百倍加速完成。每一个任务完成后,识别结果和URL下载链接有效期为24小时,超时后无法查询任务或通过先前查询结果中的URL下载结果。
调用核心类(Transcription)的
wait
方法同步等待任务结束。任务的状态包括
PENDING
、RUNNING
、SUCCEEDED
和FAILED
。当任务处于PENDING
或RUNNING
状态时,wait
接口将被阻塞。当任务处于SUCCEEDED
或FAILED
状态时,wait
接口不再阻塞并返回任务的执行结果。wait
返回TranscriptionResponse。
异步提交任务+异步查询任务执行结果
调用核心类(Transcription)的
async_call
方法并设置请求参数。说明文件转写服务对通过API提交的任务采取尽力服务原则进行处理。任务提交后将进入排队(
PENDING
)状态,排队时间取决于队列长度和文件时长,无法明确给出,通常在数分钟内。任务开始处理后,语音识别将以数百倍加速完成。每一个任务完成后,识别结果和URL下载链接有效期为24小时,超时后无法查询任务或通过先前查询结果中的URL下载结果。
循环调用核心类(Transcription)的
fetch
方法直到获取最终的任务结果。当任务状态为
SUCCEEDED
或FAILED
时,停止轮询并处理结果。fetch
返回TranscriptionResponse。
请求参数
请求参数通过核心类(Transcription)的async_call
方法进行设置。
参数 | 类型 | 默认值 | 是否必须 | 说明 |
model | str | - | 是 | 指定用于音视频文件转写的Paraformer模型名。参见模型列表。 |
file_urls | list[str] | - | 是 | 音视频文件转写的URL列表,支持HTTP / HTTPS协议,单次请求最多支持100个URL。 |
vocabulary_id | str | - | 否 | 最新热词ID,支持最新v2系列模型并配置语种信息,此次语音识别中生效此热词ID对应的热词信息。默认不启用。使用方法请参考定制热词。 |
phrase_id | str | - | 否 | 热词ID,此次语音识别中生效此热词ID对应的热词信息。默认不启用。 注: |
channel_id | list[int] | [0] | 否 | 指定在多音轨文件中需要进行语音识别的音轨索引,以List的形式给出,例如 |
disfluency_removal_enabled | bool | False | 否 | 过滤语气词,默认关闭。 |
timestamp_alignment_enabled | bool | False | 否 | 是否启用时间戳校准功能,默认关闭。 |
special_word_filter | str | - | 否 | 指定在语音识别过程中需要处理的敏感词,并支持对不同敏感词设置不同的处理方式。 若未传入该参数,系统将启用系统内置的敏感词过滤逻辑,识别结果中与阿里云百炼敏感词表匹配的词语将被替换为等长的 若传入该参数,则可实现以下敏感词处理策略:
该参数的值应为一个 JSON 字符串,其结构如下所示:
JSON字段说明:
|
language_hints | list[str] | ["zh", "en"] | 否 | 指定待识别语音的语言代码。 该参数仅适用于paraformer-v2模型。 支持的语言代码:
|
diarization_enabled | bool | False | 否 | 自动说话人分离,默认关闭。 仅适用于单声道音频,多声道音频不支持说话人分离。 启用该功能后,识别结果中将显示 有关 |
speaker_count | int | - | 否 | 说话人数量参考值。取值范围为2至100的整数(包含2和100)。 开启说话人分离功能后( 默认自动判断说话人数量,如果配置此项,只能辅助算法尽量输出指定人数,无法保证一定会输出此人数。 |
响应结果
TranscriptionResponse
TranscriptionResponse
封装了任务的基本信息(task_id
和task_status
)和执行结果(output
属性对应的内容,参见TranscriptionOutput)。
需要关注的参数:
参数 | 说明 |
status_code | HTTP请求状态码。 |
code |
|
message |
|
task_id | 任务ID。 |
task_status | 任务状态。 有 当任务包含多个子任务时,只要存在任一子任务成功,整个任务状态将标记为 |
results | 子任务识别结果。 |
subtask_status | 子任务状态。 有 |
file_url | 被识别音频的URL。 |
transcription_url | 音频识别结果对应的URL。 识别结果保存为JSON文件,您可以通过 |
TranscriptionOutput
TranscriptionOutput
对应TranscriptionResponse的output
属性,代表当前任务执行结果。
需要关注的参数:
参数 | 说明 |
code | 代表错误码。可以结合 |
message | 代表错误信息。可以结合 |
task_id | 任务ID。 |
task_status | 任务状态。 有 当任务包含多个子任务时,只要存在任一子任务成功,整个任务状态将标记为 |
results | 子任务识别结果。 |
subtask_status | 子任务状态。 有 |
file_url | 被识别音频的URL。 |
transcription_url | 音频识别结果对应的URL。 识别结果以JSON格式保存在一个JSON文件中,您可以通过 |
识别结果说明
识别结果保存为JSON文件。
需要关注的参数如下:
参数 | 类型 | 说明 |
audio_format | string | 源文件中音频的格式。 |
channels | array[integer] | 源文件中音频的音轨索引信息,对单轨音频返回[0],对双轨音频返回[0, 1],以此类推。 |
original_sampling_rate | integer | 源文件中音频的采样率(Hz)。 |
original_duration | integer | 源文件中的原始音频时长(ms)。 |
channel_id | integer | 转写结果的音轨索引,以0为起始。 |
content_duration | integer | 音轨中被判定为语音内容的时长(ms)。 重要 Paraformer语音识别模型服务仅对音轨中被判定为语音内容的时长进行语音转写,并据此进行计量计费,非语音内容不计量、不计费。通常情况下语音内容时长会短于原始音频时长。由于对是否存在语音内容的判定是由AI模型给出的,可能与实际情况存在一定误差。 |
transcript | string | 段落级别的语音转写结果。 |
sentences | array | 句子级别的语音转写结果。 |
words | array | 词级别的语音转写结果。 |
begin_time | integer | 开始时间戳(ms)。 |
end_time | integer | 结束时间戳(ms)。 |
text | string | 语音转写结果。 |
speaker_id | integer | 当前说话人的索引,以0为起始,用于区分不同的说话人。 仅在启用说话人分离功能时,该字段才会显示于识别结果中。 |
punctuation | string | 预测出的词之后的标点符号(如有)。 |
关键接口
核心类(Transcription
)
Transcription
可以通过“from dashscope.audio.asr import Transcription
”方式引入。
成员方法 | 方法签名 | 说明 |
async_call |
| 异步提交语音识别任务。 |
wait |
| 阻塞当前线程直到异步任务结束(任务状态为 该方法返回TranscriptionResponse。 |
fetch |
| 异步查询当前任务执行结果。 该方法返回TranscriptionResponse。 |
其他接口:批量查询任务状态/取消任务
详情请参见管理异步任务:支持批量查询24小时内提交的录音文件识别任务,同时支持取消PENDING
(排队)状态的任务。
错误码
如遇报错问题,请参见错误信息进行排查。
若问题仍未解决,请加入开发者群反馈遇到的问题,并提供Request ID,以便进一步排查问题。
当任务包含多个子任务时,只要存在任一子任务成功,整个任务状态将标记为SUCCEEDED
,需通过subtask_status
字段判断具体子任务结果。
错误返回示例:
{
"task_id": "7bac899c-06ec-4a79-8875-xxxxxxxxxxxx",
"task_status": "SUCCEEDED",
"submit_time": "2024-12-16 16:30:59.170",
"scheduled_time": "2024-12-16 16:30:59.204",
"end_time": "2024-12-16 16:31:02.375",
"results": [
{
"file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/sensevoice/long_audio_demo_cn.mp3",
"transcription_url": "https://dashscope-result-bj.oss-cn-beijing.aliyuncs.com/prod/paraformer-v2/20241216/xxxx",
"subtask_status": "SUCCEEDED"
},
{
"file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/sensevoice/rich_text_exaple_1.wav",
"code": "InvalidFile.DownloadFailed",
"message": "The audio file cannot be downloaded.",
"subtask_status": "FAILED"
}
],
"task_metrics": {
"TOTAL": 2,
"SUCCEEDED": 1,
"FAILED": 1
}
}
更多示例
更多示例,请参见GitHub。
常见问题
功能特性
Q:是否支持Base64编码方式的音频?
不支持Base64编码方式的音频。仅支持可通过公网访问的 URL 所指向的音频的识别,不支持识别二进制流,也不支持直接识别本地文件。
Q:如何将音频文件以公网可访问的URL形式提供?
通常遵循以下几个步骤(这里为您提供一种思路,具体情况因不同存储产品而异,推荐将音频上传至阿里云OSS):
Q:多久能获取识别结果?
任务提交后将进入排队(PENDING)状态,排队时间取决于队列长度和文件时长,无法明确给出,通常在数分钟内,请耐心等待。并且音频时长越长,所需时间越久。
故障排查
如遇代码报错问题,请根据错误码中的信息进行排查。
Q:识别结果和语音播放不同步怎么办?
将请求参数timestamp_alignment_enabled
设为true
将启用时间戳校准功能,能够让识别结果和语音播放同步。
Q:一直轮询不到结果?
可能是限流原因,请耐心等待。若需扩容,请加入开发者群进行申请。
Q:无法识别语音(无识别结果)是什么原因?
请检查音频是否符合要求(格式、采样率)。
若是使用了
paraformer-v2
模型,检查language_hints
的设置是否正确。以上都没问题,可通过定制热词,提升对特定词语的识别效果。
更多问题
请参见GitHub QA。